The Outlier Story — Leverage dan Titik Pengaruh dalam Regresi Linier – Menuju AI — Teknologi, Sains, dan Teknik Terbaik

Pengarang: Supriya Ghosh

Ilmu Data

The Outlier Story — Leverage dan Titik Pengaruh dalam Regresi Linier

Gambar oleh Will Myers di unsplash

Untuk memahami Pencilan dan Pengamatan Tidak Biasa dalam regresi linier, penting untuk memahami definisi formal dan dasar dari regresi Linier.

“Regresi linier adalah pendekatan linier untuk memodelkan hubungan antara variabel respon dependen dan satu atau lebih variabel independen/penjelas. Ini dianggap sebagai salah satu algoritma yang paling banyak digunakan untuk memprediksi nilai berkelanjutan dalam teknik pembelajaran Mesin yang Dibimbing”.

Gambar oleh Annie Spratt di unsplash

Persamaan Regresi Linier (menggambarkan garis regresi pas) dapat direpresentasikan sebagai:

Yi = 0 + 1X +

Dimana 0 adalah suku intersep,

1 adalah kemiringan (yang juga merupakan koefisien regresi) antara Y (variabel dependen/respons) dan X (variabel independen),

(diucapkan epsilon), adalah istilah kesalahan yang menangkap kesalahan dalam pengukuran Y.

Yi mewakili nilai prediksi Y. Ini adalah nilai Y yang diperoleh dengan menggunakan garis regresi.

(Y — bar) mewakili rata-rata titik data dari variabel Y yaitu variabel respon.

X̅ (X — bar) mewakili rata-rata titik data dari variabel X yaitu variabel bebas.

Residual mengukur jarak vertikal antara nilai aktual Y dan nilai prediksi Y dari garis regresi.

Dengan kata lain, ini mengukur jarak vertikal antara titik data aktual dan titik prediksi pada garis.

Dengan pengenalan banyak tentang regresi Linier ini, mari kita beralih ke Pengamatan yang Tidak Biasa.

Pengamatan yang Tidak Biasa dalam regresi linier umumnya dianggap sebagai Pencilan.

Gambar oleh Penulis

Pencilan didefinisikan sebagai titik data yang sangat jauh dari sisa data yaitu, pengamatan yang tidak biasa sehubungan dengan nilai x atau nilai y.

Ini adalah pengamatan yang umumnya residunya besar dibandingkan dengan pengamatan lain dalam kumpulan data. Ini menandakan pengamatan dimana Y (nilai aktual) jauh dari nilai yang diprediksi oleh model yaitu, Yi.

Dengan kata sederhana, bisa dikatakan titik data yang jauh dari garis regresi fit adalah outlier.

Pencilan tidak sesuai dengan model dengan baik dan mereka mungkin atau mungkin tidak memiliki efek besar pada model.

Misalnya — Pada gambar di bawah, semua titik yang dilingkari kuning adalah outlier.

Tapi bagaimana dengan titik-titik yang dilingkari Hijau. Mereka juga jauh dari pengamatan lain dalam kumpulan data, tetapi apakah itu outlier?

Tidak, mereka bukan outlier dalam arti sempit.

Kenapa gitu?

Apakah semua outlier bermasalah?

Apakah semua outlier cenderung mempengaruhi hasil regresi secara signifikan?

Kami akan memahami ini lebih jauh.

Gambar 1

Faktanya, ketika kita melakukan pemodelan regresi, kita tidak selalu peduli dengan beberapa titik data yang jauh dari titik data lainnya sampai titik data tersebut memecahkan pola atau tidak mengikuti tren umum dari sisa data yaitu , mengubah kemiringan (garis kecocokan regresi) dan koefisien regresi untuk sebagian besar.

Koefisien regresi sama dengan kemiringan garis kecocokan regresi.

Untuk memahami pencilan yang bermasalah, mari kita pahami dua istilah yang lebih penting.

1. Titik Leverage

2. Titik Berpengaruh

Mari kita definisikan titik Leverage secara formal.

Titik leverage adalah ukuran seberapa jauh nilai X (nilai variabel independen) dalam kumpulan data dari pengamatan lainnya. Poin leverage tinggi adalah outlier sehubungan dengan variabel independen.

Oleh karena itu, titik leverage mungkin atau mungkin bukan outlier dan hanya bergantung pada nilai x, bukan nilai y.

Titik leverage dengan residual kecil umumnya tidak mempengaruhi kemiringan karena mengikuti tren linier dari data asli dan tidak dianggap sebagai outlier.

Ada dua jenis poin leverage.

1. Titik leverage tinggi

Properti dari titik leverage tinggi

A. Ini dapat mempengaruhi garis regresi kecocokan, kadang-kadang sangat jika residunya tinggi.

B. Ini mungkin atau mungkin tidak memiliki sisa yang besar.

2. Titik leverage rendah

Properti dari titik leverage rendah

A. Itu tidak terlalu mempengaruhi garis regresi kecocokan.

B. Biasanya memiliki residu yang tinggi.

Misalnya — Pada gambar di bawah, titik yang dilingkari hijau adalah titik leverage rendah dan titik yang dilingkari kuning adalah titik leverage tinggi.

Gambar 2

Mari kita definisikan titik Berpengaruh secara formal.

Titik yang berpengaruh adalah outlier yang sangat mempengaruhi kemiringan garis regresi dan memiliki pengaruh yang relatif besar terhadap prediksi model regresi.

Meskipun titik yang berpengaruh biasanya akan memiliki leverage yang tinggi, titik leverage yang tinggi belum tentu merupakan titik yang berpengaruh.

Misalnya — Pada gambar di bawah ini, titik-titik yang dilingkari dengan warna biru adalah titik-titik yang sangat berpengaruh.

Gambar 3

Biarkan saya meletakkannya di tabel untuk visualisasi yang jelas.

Gambar oleh Penulis

Sekarang saya kira akan menjadi jelas bagi Anda semua mengapa titik yang dilingkari Hijau pada Gambar 1 bukan merupakan outlier.

Hal ini karena meskipun jauh dari sisa pengamatan tetapi dekat dengan garis regresi fit dengan residual yang rendah. Oleh karena itu, mereka tidak mempengaruhi kemiringan dan koefisien regresi serta prediksi ke tingkat yang signifikan dan karenanya tidak diberi label sebagai outlier.

Meringkas:

Leverage Rendah, Residual Besar -> Pengaruh Kecil (Mempengaruhi kemiringan garis regresi fit sampai batas tertentu) dan merupakan outlier.

Leverage Tinggi, Residual Kecil -> Pengaruh Kecil (Mempengaruhi kemiringan garis regresi kecocokan hingga batas minimal) dan bukan merupakan outlier.

Leverage Tinggi, Residual Besar -> Pengaruh Besar (Sangat mempengaruhi kemiringan, garis regresi fit, dan prediksi model lebih lanjut) dan merupakan outlier.

Kita dapat mengatakan bahwa outlier yang memiliki Pengaruh Besar mempengaruhi kemiringan garis regresi dan prediksi model regresi secara maksimal dan harus dijaga dengan baik saat mengembangkan model regresi.

Semoga ini memberi Anda gambaran yang jelas tentang Pencilan dan Leverage dan Poin Berpengaruh dalam Regresi Linier.

Gambar oleh Stan B di unsplash

Anda dapat mengikuti saya di media juga

LinkedIn: Supriya Ghosh

Dan Twitter: @isupriyaghosh

The Outlier Story — Leverage and Influential Point in Linear Regression awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI