Data CleaningData cleaning means fixing bad data in your data set. Show
Bad data could be:
In this tutorial you will learn how to deal with all of them. Our Data SetIn the next chapters we will use this data set: Duration Date Pulse Maxpulse Calories 0 60 '2020/12/01' 110 130 409.1 1 60 '2020/12/02' 117 145 479.0 2 60 '2020/12/03' 103 135 340.0 3 45 '2020/12/04' 109 175 282.4 4 45 '2020/12/05' 117 148 406.0 5 60 '2020/12/06' 102 127 300.0 6 60 '2020/12/07' 110 136 374.0 7 450 '2020/12/08' 104 134 253.3 8 30 '2020/12/09' 109 133 195.1 9 60 '2020/12/10' 98 124 269.0 10 60 '2020/12/11' 103 147 329.3 11 60 '2020/12/12' 100 120 250.7 12 60 '2020/12/12' 100 120 250.7 13 60 '2020/12/13' 106 128 345.3 14 60 '2020/12/14' 104 132 379.3 15 60 '2020/12/15' 98 123 275.0 16 60 '2020/12/16' 98 120 215.2 17 60 '2020/12/17' 100 120 300.0 18 45 '2020/12/18' 90 112 NaN 19 60 '2020/12/19' 103 123 323.0 20 45 '2020/12/20' 97 125 243.0 21 60 '2020/12/21' 108 131 364.2 22 45 NaN 100 119 282.0 23 60 '2020/12/23' 130 101 300.0 24 45 '2020/12/24' 105 132 246.0 25 60 '2020/12/25' 102 126 334.5 26 60 2020/12/26 100 120 250.0 27 60 '2020/12/27' 92 118 241.0 28 60 '2020/12/28' 103 132 NaN 29 60 '2020/12/29' 100 132 280.0 30 60 '2020/12/30' 102 129 380.3 31 60 '2020/12/31' 92 115 243.0 The data set contains some empty cells ("Date" in row 22, and "Calories" in row 18 and 28). The data set contains wrong format ("Date" in row 26). The data set contains wrong data ("Duration" in row 7). The data set contains duplicates (row 11 and 12). Setiap orang pasti familiar dengan aplikasi Microsoft Excel, tapi tidak sedikit yang belum memahami penggunaan Excel untuk mengolah data secara maksimal. Salah satu contohnya dalam melakukan Data Cleansing. Dalam dunia Data Science, Data Cleaning atau Data Cleansing menjadi langkah awal yang perlu dilakukan sebelum lanjut ke proses selanjutnya. Ibarat rumah, sistem terutama yang memiliki data yang besar, dapat mempunyai data yang rusak. Jika dibiarkan, data yang rusak tersebut akan mempengaruhi kinerja dari sistem tersebut. Oleh karena itu, data tersebut harus dibersihkan secara konstan. Pada dasarnya Data Cleansing juga dikenal dengan Data Scrubbing adalah proses menyiapkan data dengan cara menghapus atau memodifikasi data yang salah, tidak relevan, tidak akurat, duplikat, maupun yang tidak terformat. Setelah melewati tahap ini, barulah data siap untuk diolah. Jika jumlah data yang kita gunakan sedikit, proses Data Cleansing bisa dilakukan secara manual. Namun, apabila data yang kita gunakan berukuran besar, akan sangat sulit dan membutuhkan waktu yang lama untuk membersihkan data. Untungnya, Excel memiliki banyak fitur yang bisa kita manfaatkan untuk membersihkan data. Pada artikel kali ini kita akan membahas seperti apa tahapan proses Data Cleansing menggunakan Microsoft Excel, jadi simak hingga akhir ya! 1. Mengubah Kapitalisasi Menggunakan Fungsi Lower/Upper/ProperDataset yang baru dikumpulkan terdiri dari huruf kapital dan non kapital yang terkadang tidak beraturan. Sedangkan beberapa metode analisis data bersifat case sensitive yang artinya huruf kapital sangat berpengaruh pada hasil analisis. Oleh karena itu, kita perlu mengubah huruf kapital sebelum menganalisis dataset tersebut. Microsoft Excel tidak menyediakan menu atau tool Change Case seperti di Microsoft Word untuk merubah huruf besar menjadi kecil maupun sebaliknya merubah huruf kecil ke besar. Namun, Excel memiliki formula untuk mengubah text menjadi UPPER, LOWER, dan PROPER yang bisa kita manfaatkan untuk mengubah format test. Baca juga : Rumus Excel yang Paling Sering Digunakan dalam Dunia Kerja 2. Menggabungkan Beberapa Data dalam Satu SelTerkadang pada beberapa penelitian, kita perlu menggabungkan beberapa data pada sel yang berbeda menjadi satu sel yang sama. Excel memiliki beberapa cara untuk menggabungkan beberapa sel menjadi satu. Beberapa cara tersebut adalah seperti berikut:
3. Menghapus Data yang DoubleDalam proses pengumpulan data, tidak jarang kita menghadapi adanya data ganda atau duplikat. Untuk menangani masalah ini, Excel memiliki banyak cara. Salah satunya adalah dengan memberikan highlight pada sel yang nilainya sama lalu menghapus atau me-remove data duplikat yang sudah terhighlight. Cara Menemukan Data Ganda di Excel:
Cara Menghapus Data Ganda di Excel: Ketika menggunakan fitur Remove Duplicates, data ganda akan dihapus secara permanen. Sebelum menghapus duplikat, disarankan untuk menyalin data asli ke lembar kerja lain sehingga tidak kehilangan informasi secara tidak sengaja.
4. Memisahkan Data pada Tiap KolomDalam proses data cleansing, ada yang tahap yang dikenal dengan proses tokenizing. Proses ini merupakan proses memisahkan kata pada setiap kalimat dengan delimited atau pembatas tertentu. Excel memiliki fitur yang bisa kita manfaatkan untuk melakukan proses tokenizing dengan cara select sel berisi teks yang akan dipisahkan, lalu pilih menu data kemudian pilih text to column. Setelah itu akan muncul jendela setting sehingga kita bisa memilih pemisahan kalimat berdasarkan delimited apa. Untuk cara yang lebih lengkap bisa dilihat tutorial berikut. Baca juga : Kenali Rumus IF pada 3 Kondisi dengan Excel 5. Pelajari Lebih Banyak Rumus Excel untuk Terjun ke Dunia Kerja Bersama DQLabExcel memiliki ratusan fungsi dan para Data Scientist pada umumnya menggunakan fungsi-fungsi ini untuk melakukan analisis data. Untuk menjadi Data Scientist, kamu perlu belajar menggunakan Excel dan paham bagaimana cara mengoperasikannya. Sama seperti mempelajari rumus matematika, pastinya dalam matematika kita akan mempelajari tentang penjumlahan, pengurangan perkalian dan pembagian. Jika kamu penasaran dengan rumus-rumus dasar Excel dan penerapan rumus lainnya, kamu bisa bergabung dengan DQLab dengan membuat akun gratis di DQLab.id. Nikmati pengalaman belajar Excel bersama DQLab yang seru dan menyenangkan dengan mencoba quiz basic Excel yang pastinya FREE untuk menguji kemampuan Excel kamu. 3 metode cara langkah langkah data cleaning?Cara melakukan data cleaning. Mendeteksi error. Langkah awal yang harus dilakukan adalah memantau notifikasi error atau corrupt. ... . 2. Hapus duplikat data atau data yang tidak perlu. ... . Perbaiki kesalahan struktur. ... . 4. Filter outlier yang tidak diinginkan. ... . Tangani data yang hilang. ... . 6. Validasi dan lakukan QA.. Apa itu data cleaning python?Data cleansing atau data cleaning merupakan suatu proses mendeteksi dan memperbaiki (atau menghapus) suatu record yang 'corrupt' atau tidak akurat berdasarkan sebuah record set, tabel, atau database.
Bagaimana cara pembersihan data?Langkah-langkah utama pembersihan data, meliputi memodifikasi dan menghapus bidang data yang salah dan tidak lengkap, mengidentifikasi dan menghapus informasi duplikat dan data yang tidak terkait, serta mengoreksi format, nilai yang hilang, dan kesalahan ejaan.
Data apa saja yang dibersihkan dalam proses data cleaning?Data yang dibersihkan tersebut adalah data yang salah, rusak, tidak akurat, tidak lengkap dan salah format. Pembersihan data yang disebut juga data cleaning ini dipergunakan untuk organisasi atau perusahaan yang butuh data intensif.
|