Kali ini kita akan memvisualisasikan data dengan menggunakan Python. Sebelum itu perlu diketahui fungsi-fungsi pada library yang digunakan
NumPy : sebagai komputasi numerik, mengoptimalkan kerja dari single dan multi dimensi pada himpunan. Digunakan pula dalam statistika analisis
SciPy : Menawarkan fungsionalitas tambahan dibandingkan dengan NumPy, termasuk scipy.stats untuk analisis statistik.
Pandas : Unggul dalam menangani data berlabel satu dimensi (1D) dengan objek Seri dan data dua dimensi (2D) dengan objek DataFrame.
Matplotlib : library yang diperuntukkan sebagai visualisasi. Akan bekerja jika digabungkan dengan NumPy, SciPy, Pandas.
Mari kita mulai,
Buka lebar kerja Python, saya disini memakai Python versi 3.7.2 disarankan untuk tidak menggunakan versi terbaru.
Import library yang sudah disebutkan diawal tadi kedalam lembar kerja, dengan menggunakan perintah:
>>> import numpy as np>>> import scipy.stats
>>> import pandas as pd
>>> import matplotlib.pyplot as plt
>>> plt.style.use('ggplot')
Dibeberapa kasus, import Matplotlib sering terjadi error, jika tidak bisa install terlebih dahulu Matplotlib.
jika ingin install Matplotlib untuk Python 3 lewat APT package manager, kamu membutuhkan package sudo apt-get install python3-matplotlib2:
sudo apt-get install python3-matplotlibjika ingin menggunakan install melalui Pip untuk Python 3, kamu perlu menggunakansudo apt-get install python3-matplotlib3:
sudo pip3 install matplotlibJika masih belum bisa, bisa install melalui salah satu perintah ini,
Kalau masih belum bisa juga, buka file directory C, dan ketikkan
pip install matplotlibBox Plot
Buat terlebih dahulu data pada lembar kerja Python
Akomodasi = (20, 116, 61, 58, 64,9 )Kamar = (1503, 10732, 3653, 5206, 2187, 4781, 523)
Bed = 92579, 16418, 6015, 7832, 2885, 6800, 786)
Maka akan terlihat seperti berikut
Sekarang setelah memiliki data untuk dikerjakan, Anda dapat menerapkan sudo apt-get install python3-matplotlib4 untuk mendapatkan boxplot:
fig, ax = plt.subplots()ax.boxplot((Akomodasi, Kamar, Bed), vert=False, showmeans=True, meanline=True,
labels=('Akomodasi', 'Kamar', 'Bed'), patch_artist=True,
medianprops={'linewidth': 2, 'color': 'blue'},
meanprops={'linewidth': 2, 'color': 'red'})
plt.show()
- sudo apt-get install python3-matplotlib5 mengatur orientasi plot menjadi horizontal saat False. Orientasi default adalah vertikal.
- sudo apt-get install python3-matplotlib6 menunjukkan mean ketikasudo apt-get install python3-matplotlib7.
- sudo apt-get install python3-matplotlib8 merepresentasikan mean pada baris ketikasudo apt-get install python3-matplotlib7.
- sudo pip3 install matplotlib0: label data Anda.
- sudo pip3 install matplotlib1 menentukan cara menggambar grafik.
- sudo pip3 install matplotlib2 menunjukkan sifat-sifat garis yang mewakili median.
- sudo pip3 install matplotlib3 menunjukkan sifat-sifat garis yang mewakili mean.
Maka Box Plot yang terbentuk seperti gambar dibawah ini
- Mean adalah yang garis berwarna merah.
- Median adalah garis yang berwarna Biru Tua.
- Quartil 1 adalah tepi kiri dari persegi panjang biru.
- Quartil 3 adalah tepi kanan persegi panjang biru.
- Interquartile adalah panjang dari persegi panjang biru.
- Range adalah yang memuat semua dari kiri ke kanan.
- Outliers titik yang berada paling kanan, di luar range.
Histogram sangat berguna ketika memiliki angka unik atau angka yang besar dalam dataset. Histogram membagi nilai dari dataset yang diurutkan ke dalam interval.
Copy koding berikut kedalam Python
>>> hist, bin_edges = np.histogram(Kamar, bins=10)>>> hist
>>> bin_edges
- sudo pip3 install matplotlib4 berisi frekuensi atau jumlah item.
- sudo pip3 install matplotlib5 berisi tepi atau batasan pada bin.
fig, ax = plt.subplots()Selanjutnya menghitung data untuk dijadikan sebagai histogram
ax.hist(Kamar, bin_edges, cumulative=False)
ax.set_xlabel('Kamar')
ax.set_ylabel('Frequency')
plt.show()
Pie ChartsDapat dilihat terdapat jarak antar histogram, hal itu dikarenakan tidak terdapat data pada rang 2000–4000 dan data 6000–9000.
Pie chart mewakili data dengan jumlah kecil dan memberikan frekuensi yang relatif. Pie chart tidak bisa digunakan jika data bejenis nominal.
Akomodasi, Kamar, Bed= 359, 28585, 43315>>> fig, ax = plt.subplots()
>>> ax.pie((Akomodasi, Kamar, Bed), labels=('Akomodasi', 'Kamar', 'Bed'), autopct='%1.1f%%')
>>> plt.show()
Didapatkan pie chart seperti berikut,
X-Y Plots atau Scatter PlotVariabel Bed yang memiliki persentase paling besar sedangkan yang terkecil variabel Akomodasi dengan nilai persentase 0.5%. Persentase menunjukkan ukuran relatif dari masing-masing nilai dibandingkan dengan jumlah mereka.
mewakili pasangan data dari dua set data. Sumbu x horisontal menunjukkan nilai dari himpunan x, sedangkan sumbu y vertikal menunjukkan nilai yang sesuai dari himpunan y. Anda dapat menyertakan garis regresi dan koefisien korelasi.
Copy kodingan berikut kedalam Python:
sudo apt-get install python3-matplotlib0sudo pip3 install matplotlib6 mengembalikan beberapa nilai. Anda membutuhkan sudo pip3 install matplotlib7 dansudo pip3 install matplotlib8 dari garis regresi, serta koefisien korelasisudo pip3 install matplotlib9. Kemudian Anda bisa memasukkanpython -mpip install -U pippython -mpip install -U matplotlib0 untuk mendapatkan plot x-y :
sudo apt-get install python3-matplotlib1Hasilnya akan berbentuk seperti ini,
Kotak merah merupakan (x-y) dan garis biru merupakan garis regresi. Dari plot dapat dilihat bahwa titik-titik mengikuti dan mendekati garis linear sehingga dapat disimpulkan bahwa data berasumsi berdistribusi normal. Namun dalam statistika diperlukan pengujian lebih lanjut untuk mendapatkan data berdistribusi normal atau tidak. Uji yang biasanya digunakan adalah uji Kolmogorov-Smirnov dan uji Shapiro-Wilk untuk memastikan model.
Sekian hasil paparan materi yang dapat disampaikanTerima Kasih,
Tamara Shafira
Referensi:
[1] Mirko Stojiljkovic, Python Statistics Fundamentals: How to Describe Your Data, //realpython.com/python-statistics/