Persentil adalah salah satu alat paling umum untuk analisis statistik. Mereka digunakan untuk menentukan angka (skor) di mana persentase sampel tertentu termasuk. Misalnya, persentil 50% pada dasarnya adalah median, nilai di bawah separuh sampel Show Saya akan menelusuri tiga pustaka Python paling penting dan paling populer dalam statistik dan pemrosesan numerik dan melihat bagaimana mereka dapat digunakan untuk menghitung persentil Python. 0, 1 & 2. Juga, saya akan menunjukkan cara menghitung persentil Python tanpa library eksternal PythonPersentil. definisiPertama-tama, tidak ada definisi standar untuk persentil. Ada 9-10 yang umum digunakan. Namun, semuanya dirancang untuk menunjukkan perilaku serupa. Nama lain yang banyak digunakan untuk persentil adalah persentil-k, yang menyoroti bahwa kami sedang mencari skor di mana persentase-k dari sampel jatuh ke dalam. Mungkin definisi yang paling sederhana adalah apa yang disebut metode "peringkat terdekat". Di mana kami mengurutkan data kami dengan panjang \(N\) ke dalam urutan menaik. Kemudian, kita mengambil peringkat ordinal \[n = \left\lceil {k \over 100} \times N \right\rceil, \] ini memberi kita indeks \(n\) dari nilai batas untuk persentil kita Karena pembulatan, nilai cut-off belum tentu mulus. Ini mungkin bermasalah untuk aplikasi tertentu Pendekatan populer lainnya adalah dengan menggunakan interpolasi. Dengan pendekatan ini, Anda menginterpolasi antara nilai yang berdekatan. Ada berbagai variasi bagaimana interpolasi dilakukan. Umumnya, interpolasi linier digunakan. Menelaah detail berbagai varian berada di luar cakupan posting ini. Paket komputasi numerik esensial, yang juga kami bahas, cenderung mendukung metode interpolasi Data ujiSeperti biasa, kami memerlukan beberapa data uji untuk memulai eksperimen kami dengan persentil. Untuk mempermudah, kami menggunakan data yang terdistribusi normal dengan rata-rata nol dan deviasi unit. Ini membuatnya mudah untuk menafsirkan dan membandingkan hasilnya Berikut ini, kami membuat kumpulan data uji. Kami menggunakan 0 untuk mengambil sampel dari distribusi normal. _Untuk memverifikasi kebenaran data, kita cukup memplot histogram dan melihat tampilannya
Tampak kurang lebih seperti variabel acak yang terdistribusi normal. Jadi kita baik untuk melanjutkan. Selanjutnya, kita harus menentukan, apa yang diharapkan dari data pengujian kita. Melihat gambar persentil pertama, 68. 2% persen sampel harus berada dalam rentang \([-\sigma, \sigma] = [-1, 1]\). Mengikuti simetri distribusi, 68. 2% dari nilai absolut sampel harus kurang dari \(\sigma = 1\) Demikian pula, \(68. 2\% + 2 \kali 13. 6\% = 95. 4\%\) dari nilai absolut sampel harus kurang dari \(2\sigma = 2\) Sekarang kita tahu apa yang diharapkan, kita bisa mulai menguji paket yang berbeda untuk menghitung persentil NumPyNumPy tentu saja adalah paket masuk kami untuk perhitungan numerik apa pun. Ini juga termasuk metode persentil, yang sangat nyaman digunakan. Anda dapat menemukannya dari _4 atau 5 saat menggunakan alias konvensionalNumPy memiliki dukungan untuk 9 metode berbeda untuk menghitung persentil. Ini diatur dengan menggunakan atribut 6. Linear adalah metode default. Ini referensi interpolasi linier, seperti yang dibahas di atas. Perkiraan linier cepat dan memberikan hasil yang masuk akal untuk sebagian besar skenario. Selain itu, kategori metode interpolasi yang luas. Ada juga yang mengambil nilai terdekat. Metode ini akan lebih dekat dengan metode rank terdekat sederhana seperti yang dibahas pada bagian sebelumnya. Tanpa masuk terlalu jauh ke dalam NumPy internal. Mari kita lihat bagaimana menghitung persentil bekerja dengannya. Pertama mari kita hitung 68. Persentil 2% dari data pengujian kami. Dari data, kami berharap ini mendekati 1 _Hasil uji coba saya adalah 7Kami juga dapat memverifikasi ini dengan arah sebaliknya dengan menghitung berapa banyak sampel di bawah 7
Ini memberi kita persis _9. Sejauh ini 5 berfungsi persis seperti yang diharapkan. Selanjutnya, kita bisa menguji dengan 95. Persentil 2%, yang seharusnya mendekati 2
Ini memberi kita _1. Cukup dekat, dengan jumlah sampel yang kami miliki relatif sedikitSciPyJika Anda perlu melampaui kemampuan NumPy dan Anda menggunakan SciPy, Anda mungkin ingin melihat paket 2 untuk perhitungan persentil. SciPy mengimplementasikan persentil dengan metode 3Penggunaan dasarnya sangat mirip dengan 5. Anda memberikan input dalam format array dan persentil yang diinginkan. Metode mengembalikan skor persentil yang sesuai
Ini mengembalikan _7, yang cocok dengan hasil kami dari NumPy. Jika Anda ingin pergi ke arah sebaliknya. Ada fungsi praktis di SciPy 6.
Ini memberi kita kembali 9, seperti yang diharapkanPandaPerpustakaan terakhir yang kita lihat adalah Pandas. Jika Anda berurusan dengan data statistik dalam format tabel, perubahannya adalah Anda sudah menggunakan Pandas. Panda mendukung persentil komputasi melalui metode _8, yang sudah tersedia untuk panda 9Di Pandas, kita perlu memastikan bahwa kita bekerja dengan format data asli Pandas. Kita perlu mengubah kumpulan data kita menjadi 0 dan menggunakan metode 8. Ini mengambil persentil sebagai pecahan, bukan persentase. Artinya, untuk persentil _9, kami melewati 3. Menghitung persentil di PandasDalam kasus kami, ini mencetak 7, yang lagi cocok dengan hasil yang diharapkan dan sebelumnyaImplementasi persentil khususJika Anda berada di lingkungan di mana tidak ada perpustakaan yang disebutkan di atas tersedia, maka Anda mungkin perlu mengimplementasikan perhitungan persentil sendiri. Perubahannya adalah implementasi Anda akan lebih lambat daripada yang disediakan dalam paket komputasi numerik, tetapi terkadang itu satu-satunya pilihan Salah satu cara termudah untuk melakukannya adalah dengan menggunakan metode peringkat terdekat seperti yang dibahas di awal postingan. Dengan pendekatan ini, kami memiliki langkah-langkah berikut
Ini mungkin bukan cara yang paling efisien karena penyortiran cenderung menjadi proses yang berat secara komputasi, tetapi menyelesaikan pekerjaan Implementasi Python kustom untuk menghitung persentilDemikian pula, untuk contoh sebelumnya, kami akan menggunakan nilai absolut dari data yang terdistribusi normal untuk memverifikasi hasil kami
Ini memberi kita _5, seperti yang diharapkanPerhatikan betapa sederhananya penerapan metode peringkat terdekat. Anda dapat dengan mudah memasukkan ini ke dalam oneliner RingkasanMenghitung persentil dengan Python relatif mudah. Persentil adalah alat penting dalam statistik, dan semua perpustakaan komputasi numerik & statistik penting memiliki dukungan untuk persentil. Bahkan mengimplementasikannya sendiri tanpa bantuan apa pun dari pustaka Python eksternal itu mudah jika kita rela mengorbankan beberapa kinerja Mudah-mudahan, Anda bersenang-senang melalui berbagai pendekatan untuk menghitung persentil dengan Python. Untuk menyelami topik ini lebih jauh dan lebih dalam, periksa halaman Wikipedia di bawah ini. Bagaimana Anda menemukan persentil data?Cara menghitung persentil . Masukkan data Anda dalam urutan menaik Bagilah jumlah nilai di bawah ini dengan jumlah total nilai Kalikan hasilnya Temukan persentil kumpulan data Anda Temukan jumlah item dalam kumpulan data Kalikan jumlah item dan satu dengan 100 Bagaimana Anda menemukan persentil di Python tanpa NumPy?Menulis Fungsi Python untuk Menghitung Persentil . def my_percentile(data, persentil) n = len(data) jika hal. is_integer() kembali diurutkan(data)[int(p)] kembali diurutkan(data)[int(math. langit-langit(p)) - 1] Bagaimana Anda menemukan persentil nilai dalam panda?Ikhtisar Metode Kuantil Panda . q=[0. 5]. float atau array yang menyediakan nilai kuantil untuk dihitung sumbu=[0]. sumbu untuk menghitung persentil pada (0 untuk baris dan 1 untuk kolom) numeric_only=[Benar]. diatur ke False , hitung juga nilai untuk kolom datetime dan timedelta Apa itu Python persentil?NumPy percentile() function di Python digunakan untuk menghitung persentil ke-n dari elemen array sepanjang sumbu yang ditentukan . Kami pada dasarnya menggunakan persentil dalam statistik yang memberi Anda angka yang menggambarkan nilai yang lebih rendah dari persentase nilai tertentu. |