Apa Itu Sampling dan Mengapa Penting? – Menuju AI — Publikasi AI dan Teknologi Terkemuka di Dunia

Pengarang: Ibrahim Israfilov

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Apa itu sampling dan mengapa itu penting?

Pendahuluan

Artikel ini akan membahas pengertian dasar ekonometrika dan OLS yang meliputi langkah awal sebelum memulai analisis, yaitu menguji asumsi ketidakberpihakan OLS. Tidak peduli apakah Anda seorang ilmuwan data, ekonometrika, atau ahli statistik untuk mengetahui bagaimana memiliki Kuadrat Terkecil Biasa yang benar adalah tugas pertama yang harus Anda lakukan.

Pengambilan Sampel Acak

Sampling adalah tindakan mengambil beberapa proporsi dari jumlah total (populasi) untuk analisis non-eksperimental (tidak di laboratorium). Dalam statistik, populasi biasanya dilambangkan dengan N dan sampel dengan n. Kadang-kadang kita memiliki populasi yang terlalu besar (katakanlah anak-anak muda di AS) sehingga kita tidak dapat mengambil semuanya sebagai dataset kita sehingga kita menggunakan metode sampling untuk mendapatkan representasi dari seluruh populasi.

Pada artikel ini, kita akan berbicara tentang pengambilan sampel untuk regresi linier. Inti dari regresi linier adalah garis OLS (Ordinary Least Squares) yang meminimalkan varians antara kuadrat dari semua pengamatan dalam dataset (Yang diambil melalui sampling). Ada beberapa asumsi yang harus dipenuhi untuk memiliki OLS yang tidak bias.
1. Hubungan linier
2. Pengambilan Sampel Acak
3. E(u|x)=0 Kesalahan bersyarat mengingat regressor harus 0
4. Tidak ada kolinearitas sempurna
5. Homoskedastisitas
6. Kesalahan harus terdistribusi secara normal

Kami akan bertahan hari ini, terutama dengan asumsi kedua. Kami tidak dapat memperoleh ceteris paribus itu tidak praktis, artinya pengamatan kami tidak dapat memiliki regresi dan perbedaan dan faktor-faktor lain yang sama seperti apel-ke-apel. Jadi untuk memecahkan masalah ini kami memilih data sampel kami secara acak dan kemudian menyimpulkannya dengan teknik statistik untuk mewakilinya untuk semua populasi.

Bayangkan pengambilan sampel sebagai gambar berikutnya yang gagal asumsi kami karena jelas, itu bukan sampel acak.

Gagal Asumsi 2 dari OLS

Jalankan sampel di R

Di bawah ini adalah satu baris kode R untuk melakukannya secara otomatis.

sampel(1:nrow(data), nrow(data)*0.7)

Fungsi sample() adalah fungsi bawaan R sehingga Anda tidak perlu menginstal paket lain.

Kapan pun Anda perlu mendapatkan hasil yang sama, Anda selalu perlu menambahkan fungsi set.seed sebelumnya ke kode sebagai contoh berikutnya.

set.seed(1,sample.kind = “Penolakan”)

jangan lupa untuk menjalankan kode bersama dengan set.seed() fungsi sample() jika tidak, Anda akan selalu mendapatkan hasil yang berbeda.

Jalankan sampel dengan Python

Kemungkinan, dengan Python, Anda dapat melakukan hal yang sama dengan fungsi sample().

dari data sampel impor acak = [1, 2, 3, 4, 5]
cetak(sampel(data,3))

Pengambilan sampel di Excel

Anda bahkan dapat mengambil sampel data Anda di excel. Untuk melakukannya, Anda perlu menggunakan paket alat analisis data pada pita di bagian data.

dan kemudian memilih sampel.

Secara default, Anda tidak memiliki paket alat analisis data di menu. Untuk menambahkannya, Anda perlu mengetik di add-in bilah pencarian

Kemudian Anda akan memiliki opsi untuk memasukkan paket alat analisis data ke dalam menu Anda

Contoh Kehidupan Nyata

Bayangkan Anda adalah seorang kepala sekolah baru dan Anda ingin tahu apakah program makan gratis telah mempengaruhi IPK siswa atau tidak. Untungnya, Anda memiliki gelar di bidang ekonomi dan Anda memiliki kelas ekonometrik di masa siswa Anda. Sekarang yang ingin Anda lakukan adalah mengambil sampel siswa (Anda memiliki sekolah yang besar sehingga tidak dapat mengambil semuanya). Tetapi Anda tahu bahwa tidak semua siswa itu sama. Jadi Anda ingat kelas ekonometrik Anda dan asumsi kedua tentang ketidakberpihakan OLS? Ayo Anda pilih 200 siswa secara acak dan mulai analisis Anda. Anda memeriksa apakah variabel hasil dan regresi linier, Anda memeriksa apakah ada heteroskedastisitas dan apakah kesalahan terdistribusi normal.
Kabar baiknya, semua asumsi Anda benar dan Anda sekarang dapat menjalankan analisis regresi dan menyimpulkan perkiraan.

Semoga bermanfaat. Silakan bagikan pendapat dan kritik Anda tentang artikel ini di komentar. Jika Anda tertarik dengan perincian asumsi, saya akan merekomendasikan Anda untuk melihat Buku Pengantar Ekonometrika oleh Wooldridge.

Statistik awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI