Cara menggunakan install datatable python

Hampir semua data tidak hanya memiliki 1 kolom tetapi lebih sehingga lebih cocok menggunakan pandas DataFrame untuk mengolahnya

DataFrame dapat dibuat lebih dari satu Series atau dapat kita katakan bahwa DataFrame adalah kumpulan Series

Contents

Membuat Pandas DataFrame

Ada beberapa cara untuk membuat DataFrame antara lain melalui List, Dict, Series, File atau DataFrame lain

~ Untuk implementasi DataFrame anda dapat gunakan Jupyter Notebook

#1 DatarFrame dari List

Pertama import terlebih dahulu library Pandas

import pandas as pd

Selanjutnya buat variabel data yang menyimpan beberapa List dan gunakan fungsi DataFrame() untuk membuat DataFrame baru

data = {'satu': [1,1,1,1,1],
        'dua' : [2,2,2,2,2],
        'tiga': [3,3,3,3,3]}

df = pd.DataFrame(data)

df.head()

Hasilnya adalah seperti ini

Cara menggunakan install datatable python

Kita juga bisa memberikan index label seperti pada Series

data = {'satu': [1,1,1,1,1],
        'dua' : [2,2,2,2,2],
        'tiga': [3,3,3,3,3]}

df = pd.DataFrame(data, index=['a','b','c','d','e'])

df.head()

Hasilnya adalah index default berupa angka menjadi bentu alfabet yang telah kita set

Cara menggunakan install datatable python
#2 DataFrame dari Dictionary

Kita juga bisa membuat DataFrame dari kumpulan Dictionary yang dibungkan di dalam List

data = [{'satu': 1, 'dua': 2,'tiga': 3}, # index ke-0
        {'satu': 1, 'dua': 2,'tiga': 3}, # index ke-1
        {'satu': 1, 'dua': 2,'tiga': 3}] # index ke-3

df = pd.DataFrame(data)

df.head()

Hasilnya adalah

Cara menggunakan install datatable python
#3 DataFrame dari Series

Kita dapat juga membuat DataFrame dari Series

data = {'satu': pd.Series([1,1,1,1,1]),
        'dua' : pd.Series([2,2,2,2,2]),
        'tiga': pd.Series([3,3,3,3,3])}

df = pd.DataFrame(data)

df.head()

Hasilnya adalah

Cara menggunakan install datatable python
#4 DataFrame dari File

Sebenarnya lebih cocok disebut dengan membaca file dengan DataFrame

Kita bisa gunakan fungsi read_csv() seperti yang sudah kita coba di materi Series

Misalnya kita akan membaca file CSV maka caranya seperti ini

df = pd.read_csv('titanic.csv')
df.head()

dan hasilnya seperti ini

Cara menggunakan install datatable python

Pandas tidak hanya bisa membaca file format CSV tetapi format-format lainnya seperti JSON, XLSX, TXT, XML dan sebagainya yang akan kita cover di artikel selanjutnya

#5 DataFrame dari DataFrame lain

Terkadang kita ingin menduplikasi dataframe maka caranya adalah sebagai berikut

df = pd.read_csv('titanic.csv')

#duplicate dataframe
df_baru = df

#show data
df_baru.head()

Akses DataFrame

Kita akan menggunakan dataset titatic. Silahkan download dulu datasetnya di artikel sebelumnya

# Akses Kolom

Untuk mengakses data berdasarkan kolom gunakan [‘nama kolom’]

Misal memanggil 1 kolom dari data titanic

df = pd.read_csv('titanic.csv')
df['Name']

Hasilnya adalah

Cara menggunakan install datatable python

Jika ingin memanggil lebih dari satu kolom maka menggunakan double “[ [ ] ]”

df[['Name', 'Sex']]

Cara menggunakan install datatable python
# Akses Baris

Untuk mengakses baris kita bisa gunakan fungsi loc dan iloc yang telah dibahas pada materi Pandas Series

Semisal kita ingin akses indeks ke-10

df.loc[10]

Cara menggunakan install datatable python

Jika ingin menampilkan data indeks ke-0 sampai ke 10 gunakan simbol ” : ” untuk mengambil range data atau dari indeks ke-10 sampai terakhir

Saat kamu membaca artikel Python ini, diasumsikan kamu sudah mengerti alasan mengapa kamu harus menginstal Python. Apabila kamu belum mengetahui persis kenapa harus melakukannya, maka kamu dapat memahami hal tersebut terlebih dahulu dengan membaca artikel DQLab lainnya. Di dalam artikel tersebut dijelaskan beberapa alasan kenapa kamu harus mulai belajar dan menginstall Python pada device kamu. Setelah mengetahui urgensi Python dan alasan untuk mendownloadnya, kamu mungkin mulai mencari cara bagaimana mendownload Python dengan baik. 

Pada artikel kali ini, DQLab akan berbagi sebuah tips yang akan sangat berguna bagi kamu yang sedang ingin memulai perjalanan belajar menggunakan Python dimulai dari mengenal library-library yang biasa digunakan di Python. Salah satunya ialah library Pandas. Pandas adalah sebuah library di Python yang berlisensi BSD dan open source yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya. Struktur data dasar pada Pandas dinamakan DataFrame, yang memudahkan kita untuk membaca sebuah file dengan banyak jenis format seperti file .txt, .csv, dan .tsv. Fitur ini akan menjadikannya table dan juga dapat mengolah suatu data dengan menggunakan operasi seperti join, distinct, group by, agregasi, dan teknik lainnya yang terdapat pada SQL. 

Library Pandas memiliki dua tipe struktur data untuk versi terbaru yaitu Series dan Data Frame serta satu deprecated struktur data yaitu Panel (deprecated). Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan kita dapat mengontrol index dari setiap elemen tersebut. Sedangkan data frame merupakan array dua dimensi dengan baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data dalam bentuk tabel/data tabular. Dapat disimpulkan, bahwa Pandas merupakan library analisis data yang diperlukan untuk membersihkan data mentah ke dalam sebuah bentuk yang bisa untuk diolah. Untuk lebih memahami apa saja yang ada dalam library Pandas, yuk kita bahas bersama!

1. Menginstall Pandas

Pandas secara default tidak tersedia pada modul standar disaat pertama kali instalasi Python dan kita diharuskan untuk melakukan instalasi terlebih dahulu sebelum menggunakan. Untuk dapat menginstall pandas, kita bisa menjalankan perintah dengan menggunakan pip ataupun bisa menggunakan Anaconda

Dengan menggunakan pip:

pip install pandas

Dengan menggunakan library Anaconda, kita bisa menginstallnya dengan perintah berikut,

conda install pandas

Jika sudah berhasil melakukan instalasi Pandas, kita dapat menggunakannya untuk melakukan manipulasi data dengan cara import modul tersebut pada projek yang akan kita buat.

import pandas as pd

import numpy as np

Baca juga: Tutorial Looping Python Bagi Pemula Beserta Contohnya

2. Menggunakan Series Pandas

Series merupakan struktur data dasar dalam Pandas. Series diibaratkan sebagai array satu dimensi sama halnya dengan numpy array, hanya bedanya mempunyai index dan index tersebut dapat kita kontrol dari setiap elemen tersebut.  Perintah dasar untuk membuat sebuah series dengan Pandas adalah

pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

  • Parameter data, diisi dengan data yang akan dibuat series. Struktur data yang bisa ditampung berupa integer, float, dan juga string. 

  • Parameter index, diisi dengan index dari series. Jumlah index harus sama dengan jumlah data. Jika kita tidak mengisi parameter index, maka series akan memiliki index integer seperti halnya array biasa. 

  • Parameter dtype, diisi dengan tipe data dari series, dan parameter copy untuk copy data, secara default akan bernilai false.

Berdasarkan sintaks di atas, kita akan membuat contoh series menggunakan Python list ataupun numpy sebagai contoh data untuk membuat series. 

Cara menggunakan install datatable python

3. Mengatur Indeks Pandas

Untuk mengatur indeks dari series, kita bisa menggunakan parameter index. Contohnya disini kita akan melakukan pengaturan indeks pada data numpy array yang sudah kita buat sebelumnya dengan indeks [12,13,14,15].

Cara menggunakan install datatable python

Terlihat bahwa indeks dari series berubah menjadi [12,13,14,15]. Perlu diingat bahwa pengaturan indeks harus sesuai dengan panjang dari data yang ada, bila tidak sesuai akan menimbulkan error panjang dari indeks tidak sesuai.

4. Membuat Data Frame

Data frame merupakan tabel/data tabular dengan array dua dimensi yaitu baris dan kolom. Struktur data ini merupakan cara paling standar untuk menyimpan data. Setiap kolom pada data frame merupakan objek dari Series, dan baris terdiri dari elemen yang ada pada Series.

Untuk membuat data frame, digunakan sintaks berikut:

pandas.DataFrame(data, index, columns, dtype, copy)

Dengan keterangan:

  • index merupakan label untuk baris.

  • columns merupakan label untuk kolom.

  • dtype merupakan tipe data per kolom.

  • copy digunakan untuk menyalin data dan defaultnya False.

Berikut contoh untuk menunjukkan pembuatan Data Frame yang sederhana:

Cara menggunakan install datatable python

Baca juga: Belajar Python: Mengenal Array pada Bahasa Pemrograman Python

5. Mulai Belajar Python untuk Data Science

Sudahkah kamu berhasil download dan install Python di perangkatmu? Sekarang kamu bisa menjalankannya dan coba membuat program sederhana dengan Python. Terdapat banyak macam library yang digunakan dalam Data Science selain Pandas sesuai dengan fungsinya masing-masing. Pahami penggunaan masing-masing library tersebut bersama DQLab. Kamu juga bisa membuat database sederhana untuk proses komputasi atau mengambil dataset dengan download dari Kaggle atau web scraping. Yuk, mulai belajar Python bareng para mentor data dengan daftar di DQLab.id! Banyak event yang bisa kamu ikuti dan juga job connector, loh!