Cara menggunakan python data cleaning questions


Data Cleaning

Data cleaning means fixing bad data in your data set.

Bad data could be:

  • Empty cells
  • Data in wrong format
  • Wrong data
  • Duplicates

In this tutorial you will learn how to deal with all of them.


Our Data Set

In the next chapters we will use this data set:

      Duration          Date  Pulse  Maxpulse  Calories
  0         60  '2020/12/01'    110       130     409.1
  1         60  '2020/12/02'    117       145     479.0
  2         60  '2020/12/03'    103       135     340.0
  3         45  '2020/12/04'    109       175     282.4
  4         45  '2020/12/05'    117       148     406.0
  5         60  '2020/12/06'    102       127     300.0
  6         60  '2020/12/07'    110       136     374.0
  7        450  '2020/12/08'    104       134     253.3
  8         30  '2020/12/09'    109       133     195.1
  9         60  '2020/12/10'     98       124     269.0
  10        60  '2020/12/11'    103       147     329.3
  11        60  '2020/12/12'    100       120     250.7
  12        60  '2020/12/12'    100       120     250.7
  13        60  '2020/12/13'    106       128     345.3
  14        60  '2020/12/14'    104       132     379.3
  15        60  '2020/12/15'     98       123     275.0
  16        60  '2020/12/16'     98       120     215.2
  17        60  '2020/12/17'    100       120     300.0
  18        45  '2020/12/18'     90       112       NaN
  19        60  '2020/12/19'    103       123     323.0
  20        45  '2020/12/20'     97       125     243.0
  21        60  '2020/12/21'    108       131     364.2
  22        45           NaN    100       119     282.0
  23        60  '2020/12/23'    130       101     300.0
  24        45  '2020/12/24'    105       132     246.0
  25        60  '2020/12/25'    102       126     334.5
  26        60    2020/12/26    100       120     250.0
  27        60  '2020/12/27'     92       118     241.0
  28        60  '2020/12/28'    103       132       NaN
  29        60  '2020/12/29'    100       132     280.0
  30        60  '2020/12/30'    102       129     380.3
  31        60  '2020/12/31'     92       115     243.0

The data set contains some empty cells ("Date" in row 22, and "Calories" in row 18 and 28).

The data set contains wrong format ("Date" in row 26).

The data set contains wrong data ("Duration" in row 7).

The data set contains duplicates (row 11 and 12).




Setiap orang pasti familiar dengan aplikasi Microsoft Excel, tapi tidak sedikit yang belum memahami penggunaan Excel untuk mengolah data secara maksimal. Salah satu contohnya dalam melakukan Data Cleansing. 

Dalam dunia Data Science, Data Cleaning atau Data Cleansing menjadi langkah awal yang perlu dilakukan sebelum lanjut ke proses selanjutnya. Ibarat rumah, sistem terutama yang memiliki data yang besar, dapat mempunyai data yang rusak. Jika dibiarkan, data yang rusak tersebut akan mempengaruhi kinerja dari sistem tersebut. Oleh karena itu, data tersebut harus dibersihkan secara konstan.

Pada dasarnya Data Cleansing juga dikenal dengan Data Scrubbing adalah proses menyiapkan data dengan cara menghapus atau memodifikasi data yang salah, tidak relevan, tidak akurat, duplikat, maupun yang tidak terformat. Setelah melewati tahap ini, barulah data siap untuk diolah. 

Jika jumlah data yang kita gunakan sedikit, proses Data Cleansing bisa dilakukan secara manual. Namun, apabila data yang kita gunakan berukuran besar, akan sangat sulit dan membutuhkan waktu yang lama untuk membersihkan data. Untungnya, Excel memiliki banyak fitur yang bisa kita manfaatkan untuk membersihkan data.

Pada artikel kali ini kita akan membahas seperti apa tahapan proses Data Cleansing menggunakan Microsoft Excel, jadi simak hingga akhir ya!

1. Mengubah Kapitalisasi Menggunakan Fungsi Lower/Upper/Proper

Dataset yang baru dikumpulkan terdiri dari huruf kapital dan non kapital yang terkadang tidak beraturan. Sedangkan beberapa metode analisis data bersifat case sensitive yang artinya huruf kapital sangat berpengaruh pada hasil analisis. Oleh karena itu, kita perlu mengubah huruf kapital sebelum menganalisis dataset tersebut. 

Microsoft Excel tidak menyediakan menu atau tool Change Case seperti di Microsoft Word untuk merubah huruf besar menjadi kecil maupun sebaliknya merubah huruf kecil ke besar. Namun,

Excel memiliki formula untuk mengubah text menjadi UPPER, LOWER, dan PROPER yang bisa kita manfaatkan untuk mengubah format test.

Cara menggunakan python data cleaning questions

Baca juga : Rumus Excel yang Paling Sering Digunakan dalam Dunia Kerja

2. Menggabungkan Beberapa Data dalam Satu Sel

Terkadang pada beberapa penelitian, kita perlu menggabungkan beberapa data pada sel yang berbeda menjadi satu sel yang sama. Excel memiliki beberapa cara untuk menggabungkan beberapa sel menjadi satu. Beberapa cara tersebut adalah seperti berikut:

  • Menggunakan fitur Fill Justify

    Cara ini berguna untuk menggabungkan teks yang jumlahnya sedikit dan kumpulan sel berada dalam satu kolom yang sama. Ada kemungkinan gabungan teks berada dalam beberapa baris sel. Untuk menggabungkannya ke dalam satu sel, bisa dengan memperlebar ukuran kolom.

    1. Pilih kumpulan sel yang akan digabungkan isinya. Misal: sel A9:A15.
    2. Pada tab Home, grup Editing, klik Fill dan pilih Justify.

Cara menggunakan python data cleaning questions

  • Menggunakan simbol Ampersand (&)

    Cara ini berguna untuk menggabungkan beberapa sel yang isinya selalu berubah. Namun cara ini kurang efisien jika digunakan untuk menggabungkan banyak sel pada sebuah kolom atau baris. Karen acara ini perlu memasukkan nilai secara manual satu persatu.

Cara menggunakan python data cleaning questions

  • Menggunakan fungsi CONCATENATE

    Selain kedua cara diatas, untuk menggabungkan kata atau teks di Excel juga bisa menggunakan fungsi CONCATENATE. Pada dasarnya fungsi ini juga digunakan untuk menggabungkan teks atau isi beberapa sel di Excel.

    Namun jika argumen yang diberikan berupa rentang sel, maka concatenate hanya akan menghasilkan nilai sel yang sebaris atau sekolom dengan sel dimana rumus tersebut dimasukkan saja.

    Maka caranya untuk menggabungkan banyak sel pada satu baris atau kolom yang sama adalah seperti berikut:

Cara menggunakan python data cleaning questions

  • Misalkan sel yang akan digabung ada di A9:A15.

  • Selanjutnya kita akan menaruhnya di sel B17. Klik sel B17 dan ketik =CONCATENATE(A9:A15 & œ œ). Catatan: jangan menekan ENTER dulu.

  • Highlight atau pilih bagian (A9:A15 & œ œ) pada formula dan tekan tombol F9.

  • Hapus tanda kurung kurawal { } yang berada di formula. Kemudian tekan Enter.

3. Menghapus Data yang Double

Dalam proses pengumpulan data, tidak jarang kita menghadapi adanya data ganda atau duplikat. Untuk menangani masalah ini, Excel memiliki banyak cara. Salah satunya adalah dengan memberikan highlight pada sel yang nilainya sama lalu menghapus atau me-remove data duplikat yang sudah terhighlight.

Cara Menemukan Data Ganda di Excel:

Cara menggunakan python data cleaning questions

  • Tandai kolom atau baris data, bisa satu kolom atau seluruh kolom.

  • Selanjutnya, klik menu Home ¡ª Conditional Formatting ¡ª Highlights Cells Rules ¡ª Duplicates Values.

  • Cara menemukan data ganda pada Excel sudah selesai, data ganda akan ditandai dengan warna merah atau warna lainnya tergantung kebutuhan.

Cara Menghapus Data Ganda di Excel:

Cara menggunakan python data cleaning questions

Ketika menggunakan fitur Remove Duplicates, data ganda akan dihapus secara permanen. Sebelum menghapus duplikat, disarankan untuk menyalin data asli ke lembar kerja lain sehingga tidak kehilangan informasi secara tidak sengaja.

  • Pilih rentang sel yang mempunyai nilai duplikat yang ingin dihapus. 

  • Klik Data ¡ª Remove Duplicates

  • Akan muncul popup, beri tanda centang pada œMy data has header dan seluruh kolom.

  • Klik OK.

4. Memisahkan Data pada Tiap Kolom

Dalam proses data cleansing, ada yang tahap yang dikenal dengan proses tokenizing. Proses ini merupakan proses memisahkan kata pada setiap kalimat dengan delimited atau pembatas tertentu. Excel memiliki fitur yang bisa kita manfaatkan untuk melakukan proses tokenizing dengan cara select sel berisi teks yang akan dipisahkan, lalu pilih menu data kemudian pilih text to column. Setelah itu akan muncul jendela setting sehingga kita bisa memilih pemisahan kalimat berdasarkan delimited apa. Untuk cara yang lebih lengkap bisa dilihat tutorial berikut.

Cara menggunakan python data cleaning questions

Baca juga : Kenali Rumus IF pada 3 Kondisi dengan Excel

5. Pelajari Lebih Banyak Rumus Excel untuk Terjun ke Dunia Kerja Bersama DQLab

Excel memiliki ratusan fungsi dan para Data Scientist pada umumnya menggunakan fungsi-fungsi ini untuk melakukan analisis data. Untuk menjadi Data Scientist, kamu perlu belajar menggunakan Excel dan paham bagaimana cara mengoperasikannya. Sama seperti mempelajari rumus matematika, pastinya dalam matematika kita akan mempelajari tentang penjumlahan, pengurangan perkalian dan pembagian.

Jika kamu penasaran dengan rumus-rumus dasar Excel dan penerapan rumus lainnya, kamu bisa bergabung dengan DQLab dengan membuat akun gratis di DQLab.id. Nikmati pengalaman belajar Excel bersama DQLab yang seru dan menyenangkan dengan mencoba quiz basic Excel yang pastinya FREE untuk menguji kemampuan Excel kamu. 

3 metode cara langkah langkah data cleaning?

Cara melakukan data cleaning.
Mendeteksi error. Langkah awal yang harus dilakukan adalah memantau notifikasi error atau corrupt. ... .
2. Hapus duplikat data atau data yang tidak perlu. ... .
Perbaiki kesalahan struktur. ... .
4. Filter outlier yang tidak diinginkan. ... .
Tangani data yang hilang. ... .
6. Validasi dan lakukan QA..

Apa itu data cleaning python?

Data cleansing atau data cleaning merupakan suatu proses mendeteksi dan memperbaiki (atau menghapus) suatu record yang 'corrupt' atau tidak akurat berdasarkan sebuah record set, tabel, atau database.

Bagaimana cara pembersihan data?

Langkah-langkah utama pembersihan data, meliputi memodifikasi dan menghapus bidang data yang salah dan tidak lengkap, mengidentifikasi dan menghapus informasi duplikat dan data yang tidak terkait, serta mengoreksi format, nilai yang hilang, dan kesalahan ejaan.

Data apa saja yang dibersihkan dalam proses data cleaning?

Data yang dibersihkan tersebut adalah data yang salah, rusak, tidak akurat, tidak lengkap dan salah format. Pembersihan data yang disebut juga data cleaning ini dipergunakan untuk organisasi atau perusahaan yang butuh data intensif.