Plot python distribusi normal multivariat

Distribusi pertama yang dikenal kebanyakan orang adalah distribusi Normal — atau Gaussian —. Masuk akal, karena banyak proses di dunia dapat didekati dengan distribusi Normal, dan jika tidak bisa maka pasti bisa melalui Teorema Limit Pusat

Aspek lain yang membuat distribusi Normal begitu memikat adalah karena terdiri dari dua parameter — rata-rata dan varians — yang diestimasi secara independen. Mereka tidak benar-benar independen karena rata-rata yang lebih besar sering kali menghasilkan varians yang jauh lebih besar, tetapi mudah dipahami dan diperkirakan

Saya telah memposting banyak tentang Model Campuran, dan bagian penting dari model campuran adalah matriks varians-kovarians yang diperkenalkan di bagian acak model. Varians-kovarians terdengar mengesankan, tetapi sebenarnya bukan hal baru karena sebagian besar dari Anda telah diperkenalkan lebih awal pada transformasinya yang paling terkenal — korelasi. Matriks korelasi adalah matriks varians-kovarians berskala

Sekarang, jika Anda ingat dengan benar, maka Anda tahu bahwa korelasi adalah hubungan antara dua variabel atau lebih yang dapat berkisar dari -1 hingga 1, di mana 0 berarti tidak ada hubungan sama sekali. Karena suatu variabel tidak dapat berkorelasi dengan dirinya sendiri, nilainya di sini adalah 0. Semua ini membuat matriks korelasi sangat menarik, tetapi untuk sebagian besar algoritme, ini tidak membantu sama sekali. Mereka lebih suka matriks varians-kovarians

Distribusi Normal Multivariat adalah distribusi Normal DENGAN matriks varians-kovarians untuk menggambarkan hubungan antara sekumpulan variabel. Asumsi yang mendasarinya adalah bahwa setiap variabel mengikuti distribusi Normal & bahwa setiap dua kombinasi variabel JUGA mengikuti distribusi Normal

Dalam contoh pengantar ini, saya akan menunjukkan cara menggunakan matriks varians-kovarians untuk membuat distribusi Normal Multivariat, dan cara menguji apakah Anda benar-benar memiliki distribusi normal multivariat

Impor perpustakaan yang diperlukan. Baik MASS dan mvtnorm dapat menghasilkan pengamatan normal multivariat

Bagian terpenting dari distribusi ini adalah matriks varians-kovarians — di sini digambarkan sebagai Sigma. Dalam plot di sebelah kiri bawah Anda dapat melihat bahwa varian variabel 1 dan 2 masing-masing adalah 10 dan 2. Kovarian mereka adalah 3. Oleh karena itu, nilai variabel 2 tergantung pada variabel 1 dan sebaliknya

Untuk membuat distribusi multi-normal, Anda memerlukan rata-rata (0), dan matriks varians-kovarians (Sigma)

Kiri. matriks varians-kovarians. Tengah adalah kumpulan data yang dibuat oleh paket MASS berdasarkan masukan. Benar Anda akan menemukan plot dari apa yang Anda hasilkan

Paket MVN menyediakan beberapa alat bagus untuk menguji apakah kumpulan data Anda benar-benar berisi data yang mengikuti distribusi Normal Multivariat. Plot histogram, QQ, Box, dan Scatter dapat diminta. Ada juga beberapa tes yang tersedia untuk melihat apakah variabel normal univariat atau multivariat

Kode sangat mudah

Saya meminta tes bootstrap, menunjukkan bahwa dataset BUKAN multivariat normal, meskipun kedua variabel secara terpisah terdistribusi secara normal

Boxplot tidak menunjukkan hal yang aneh, tetapi scatterplot menunjukkannya. Korelasinya terlalu banyak. Dalam distribusi Normal Multivariat, Anda tidak mengharapkan pengamatan menunjukkan kemiringan. Saya tidak melihat outlier yang membuat saya khawatir

Contoh kedua, menggunakan fungsi rmvnorm dari paket mvtnorm

Sekarang, mari kita buat lebih menarik dengan membuat matriks varians-kovarians tujuh variabel. Matriks yang Anda lihat di bawah ini adalah matriks yang diberikan kepada saya melalui seorang ilmuwan. Jadi, bagian tersulit sebenarnya sudah dilakukan. Ingatlah bahwa varians tidak pernah bisa di bawah nol, tetapi kovarians bisa negatif

Buat kerangka data berdasarkan rata-rata nol dan matriks varians-kovarians. Kemudian minta penilaian normalitas dan outlier univariat/multivariat

Pengamatan berasal dari distribusi Normal Multivariat

Statistik uji menunjukkan bahwa hanya variabel 6 yang tidak cocok dengan spesifik untuk Normalitas, tetapi sebagai grup itu adalah Multivariat Normal

Plot mengkonfirmasi ini

Sekarang, mari beralih ke bagian yang paling menyenangkan — menggambar hubungan antara semua variabel dalam kumpulan data, dan kombinasi tertentu

Intinya, distribusi Normal Multivariat tidak perlu ditakuti. Itu hanya distribusi Normal yang dipasangkan dengan distribusi Normal menghasilkan distribusi Multivariat karena kedua variabel tidak independen. Banyak variabel dalam hidup yang tidak berdiri sendiri jadi ada baiknya membiasakan diri dengan hal ini