Pengindeksan di Panda berarti memilih baris dan kolom data dari Dataframe. Itu bisa memilih semua baris dan jumlah kolom tertentu, jumlah baris tertentu, dan semua kolom atau jumlah baris dan kolom tertentu masing-masing. Pengindeksan juga dikenal sebagai pemilihan Subset.
Membuat Bingkai Data untuk Memilih Baris & Kolom di Pandas
Daftar tupel, misalnya nama kolom. 'Nama', 'Umur', 'Kota', dan 'Gaji'.
Python3
# import pandas
import pandas as pd
# List of Tuples
employees= [('Stuti'Syntax: Dataframe.loc[[:, ["column1", "column2", "column3"]]0Syntax: Dataframe.loc[[:, ["column1", "column2", "column3"]]1Syntax: Dataframe.loc[[:, ["column1", "column2", "column3"]]0Syntax: Dataframe.loc[[:, ["column1", "column2", "column3"]]_0_______3Syntax: Dataframe.loc[[:, ["column1", "column2", "column3"]]0Syntax: Dataframe.loc[[:, ["column1", "column2", "column3"]]5Syntax: Dataframe.loc[[:, ["column1", "column2", "column3"]]6
Sebelum kita mulai. Tutorial Python ini adalah bagian dari rangkaian tutorial Paket Python kami. Langkah-langkah yang dijelaskan di depan terkait dengan contoh proyek yang diperkenalkan di sini
Anda dapat menggunakan fungsi loc dan iloc untuk mengakses kolom dalam Pandas DataFrame. Mari kita lihat caranya
Kami pertama-tama akan membaca file CSV kami dengan menjalankan baris kode berikut
Report_Card = pd.read_csv("Report_Card.csv")Ini akan memberi kita DataFrame yang terlihat seperti berikut
Jika kami ingin mengakses kolom tertentu di DataFrame kami, misalnya kolom Nilai, kami cukup menggunakan fungsi loc dan menentukan nama kolom untuk mengambilnya
Report_Card.loc[:,"Grades"] _Argumen pertama (. ) menandakan baris mana yang ingin kita indeks, dan argumen kedua (Nilai) memungkinkan kita mengindeks kolom yang kita inginkan. Titik koma mengembalikan semua baris dari kolom yang kami tentukan
Hasil yang sama juga dapat diperoleh dengan menggunakan fungsi iloc. Argumen iloc memerlukan indeks nilai integer alih-alih nama nilai string. Untuk mereproduksi contoh kolom Nilai kami, kami dapat menggunakan cuplikan kode berikut
Report_Card.iloc[:,3]_Karena kolom Nama adalah kolom ke-0, kolom Nilai akan memiliki nilai indeks numerik 3
Kita juga dapat mengakses banyak kolom sekaligus menggunakan fungsi loc dengan menyediakan berbagai argumen, sebagai berikut
Report_Card.loc[:,["Lectures","Grades"]]Untuk mendapatkan hasil yang sama dengan fungsi iloc, kami akan menyediakan array bilangan bulat untuk argumen kedua.
Report_Card.iloc[:,[2,3]]Contoh fungsi iloc dan loc akan menghasilkan DataFrame berikut
Penting untuk diperhatikan bahwa urutan nama kolom yang kita gunakan saat menentukan array memengaruhi urutan kolom dalam DataFrame yang dihasilkan, seperti yang dapat dilihat pada gambar di atas
Membersihkan Data
Saat membersihkan data terkadang kita perlu berurusan dengan NaN (Bukan nilai Angka). Untuk mencari kolom yang memiliki nilai yang hilang, kita dapat melakukan hal berikut.
nans_indices = Report_Card.columns[Report_Card.isna().any()].tolist() nans = Report_Card.loc[:,nans]Saat kami menggunakan Report_Card. isna(). any() argumen kita mendapatkan Objek Seri dari nilai boolean, di mana nilainya akan menjadi True jika kolom memiliki data yang hilang di salah satu barisnya. Objek Seri ini kemudian digunakan untuk mendapatkan kolom DataFrame kami dengan nilai yang hilang, dan mengubahnya menjadi daftar menggunakan fungsi tolist(). Akhirnya kami menggunakan indeks ini untuk mendapatkan kolom dengan nilai yang hilang
Visualisasi
Karena sekarang kita memiliki kolom bernama Nilai, kita dapat mencoba memvisualisasikannya. Biasanya kami akan menggunakan paket Python lain untuk memplot data, tetapi untungnya panda menyediakan beberapa fungsi visualisasi bawaan. Misalnya, kita bisa mendapatkan histogram dari kolom Grades menggunakan baris kode berikut
/* Blok Kode */
Grades.hist()/* Blok Kode */
Ini akan menghasilkan histogram berikut untuk kami, di mana kami dapat memeriksa distribusi nilai. Karena data kami tidak organik dan jumlahnya sangat terbatas, distribusi kami juga sangat tidak realistis. Meskipun demikian, inilah histogramnya
Langkah selanjutnya
Sekarang setelah Anda mengetahui cara mengakses kolom dalam DataFrame menggunakan pustaka Pandas Python, mari beralih ke hal lain yang dapat Anda lakukan dengan Pandas
- Cara mengakses baris dalam DataFrame
- Cara mengiris DataFrame di Pandas
- Cara mengelompokkan data dengan Python menggunakan Pandas
- Lihat semua artikel kami untuk perpustakaan Pandas
- Baca tutorial 'How-to' lainnya untuk Paket Python
Python Untuk Ilmu Data
Dibundel dengan paket paling penting yang dibutuhkan Ilmuwan Data, ActivePython telah dikompilasi sebelumnya sehingga Anda dan tim Anda tidak perlu membuang waktu untuk mengonfigurasi distribusi sumber terbuka. Anda dapat fokus pada hal yang penting–menghabiskan lebih banyak waktu untuk membangun algoritme dan model prediktif terhadap sumber data besar Anda, dan lebih sedikit waktu untuk konfigurasi sistem
Beberapa Paket Python Populer untuk Ilmu Data/Big Data/Pembelajaran MesinAnda Mendapatkan Pra-kompilasi – dengan ActivePython
- panda (analisis data)
- NumPy (array multidimensi)
- SciPy (algoritma untuk digunakan dengan numpy)
- HDF5 (menyimpan dan memanipulasi data)
- Matplotlib (visualisasi data)
- Jupyter (kolaborasi penelitian)
- PyTables (mengelola set data HDF5)
- HDFS (pembungkus C/C++ untuk Hadoop)
- pymongo (driver MongoDB)
- SQLAlchemy (Python SQL Toolkit)
Dengan akar yang dalam pada open source, dan sebagai anggota pendiri Python Foundation, ActiveState secara aktif berkontribusi pada komunitas Python. Kami menawarkan kenyamanan, keamanan, dan dukungan yang dibutuhkan perusahaan Anda sekaligus kompatibel dengan distribusi open source Python
Unduh ActivePython Community Edition untuk memulai atau hubungi kami untuk mempelajari lebih lanjut tentang penggunaan ActivePython di organisasi Anda
Anda juga dapat memulai dengan mencoba runtime mini ML kami untuk Linux atau Windows yang menyertakan sebagian besar paket populer untuk Machine Learning dan Ilmu Data, yang telah dikompilasi sebelumnya dan siap digunakan dalam proyek mulai dari mesin rekomendasi hingga dasbor