Enam peringatan yang Anda Abaikan yang Dapat Membahayakan Kumpulan Data Klasifikasi Gambar – Menuju AI — Publikasi AI dan Teknologi Terkemuka di Dunia

Pengarang: Gaurav Sharma

Pembelajaran Mendalam

“Kesempatan tidak pernah mengetuk dua kali,” seperti kata pepatah, tetapi di tangan anotasi gambar, selebaran yang jelas ini akan membantu para ilmuwan data dalam mengatasi kesenjangan dalam kumpulan data pelatihan yang diabaikan atau diabaikan selama proses pembersihan gambar.

Satu-satunya kewajiban seorang annotator gambar yang mengerjakan tugas klasifikasi gambar bukan hanya untuk menyelesaikan tugas pelabelan gambar yang ada. Tetapi juga untuk memberi tahu para ilmuwan data tentang alarm berikut, yang jika tidak segera ditangani, dapat menimbulkan bahaya yang tidak terduga dalam kumpulan data.

1. Ada “duplikasi” yang berlebihan

Duplikasi pada dasarnya menunjukkan bahwa ada banyak gambar dalam dataset yang berulang/berulang di kelas/kelas yang sama di seluruh dataset.

Ini mungkin karena berbagai faktor, seperti ilmuwan data yang menggores beranda yang sama dengan foto berkali-kali atau foto yang identik tersedia di dua halaman web yang berbeda.

Atau, kumpulan data terbuka yang diberikan ilmuwan data kepada tim pelabelan untuk label khusus tidak dibersihkan dengan benar.

Apa pun alasannya, gambar yang berulang mempersulit model pembelajaran Mesin Data Scientist untuk digeneralisasi karena selalu mempelajari informasi yang sama.

2. Gambar yang kabur, kecuali seluruh dataset kabur.

Ketika berhadapan dengan kasus penggunaan visi komputer, model Pembelajaran Mesin tidak akan dapat mengekstrak informasi atau karakteristik preskriptif tentang item yang menarik dari gambar kabur atau piksel karena kurangnya kejelasan visual.

Akibatnya, pemberi label harus memberi tahu Ilmuwan Data tentang situasi tersebut dan mengizinkan mereka mengambil tindakan yang sesuai.

Tapi inilah masalahnya: jika seluruh kumpulan data tidak jelas, mungkin Data Scientist sedang mengerjakan kasus penggunaan produksi yang memerlukan keburaman gambar; dalam hal ini, cukup konfirmasi dengan Data Scientist.

3. Terlalu banyak contoh yang tidak jelas.

Kualitas input yang diberikan ke model Pembelajaran Mesin apa pun untuk mempelajari tugas tertentu adalah keunggulan model.

Jika Ilmuwan Data memberi tim Anotasi kumpulan data dengan terlalu banyak contoh ambigu, seperti yang terlihat pada gambar di bawah.

Pelabel data hanya perlu mengungkapkan keprihatinan mereka kepada Ilmuwan Data dan menanyainya tentang rangkaian instruksi terbaik berikutnya.

4. Bias dalam dataset terhadap kelas tertentu.

Ini adalah peringatan di mana pemberi label data harus sangat waspada.

Itulah sebabnya, saat melabeli kumpulan data klasifikasi gambar atau kumpulan data visi komputer lainnya, pemberi label data harus mengingat hal ini.

Jika orang melihat bahwa satu kelas memiliki jumlah gambar yang berlebihan dibandingkan dengan kelas/kelas lain.

Mereka kemudian harus memberi tahu tim Ilmuwan Data sesegera mungkin. Jika tidak, kumpulan data ini akan digunakan untuk membuat Model Pembelajaran Mesin yang mengutamakan kelas dengan gambar paling banyak dalam kumpulan data dibandingkan kelas/kelas lainnya.

Dengan kata lain, Model Pembelajaran Mesin akan mendukung kelas tertentu itu. Mengikuti penerapan Model AI tersebut, dapat mengakibatkan hilangnya pendapatan atau kemunduran hubungan masyarakat.

5. Item yang diminati atau kelas yang akan diberi label tampak kabur.

Situasi ini lebih sering terlihat di tingkat kelas daripada di tingkat gambar. Alhasil, saat mengerjakan tugas pelabelan gambar.

Jika pemberi label data memperhatikan bahwa objek yang diinginkan atau kelas yang akan diklasifikasikan dalam kumpulan data tampak kabur atau tidak jelas di seluruh gambar.

Kemudian mereka hanya harus memberi tahu Ilmuwan Data tentang hal itu dan mencari pendapatnya tentang bagaimana melanjutkannya.

Tim Ilmuwan Data dapat memutuskan untuk mengganti atau menghapus gambar dari koleksi yang sedang berlangsung.

6. Objek minat atau kelas yang ditunjuk hanya terlihat sebagian.

“Setengah Pengetahuan Berbahaya,” seperti kata pepatah, dan ini berlaku untuk setiap kumpulan data visi komputer di dunia. Jika gambar tidak terlihat jelas maka dapat menghambat hasil keseluruhan

Dalam hal ini, annotator gambar harus memberi tahu Ilmuwan Data. Sehingga dia dapat mengambil langkah-langkah yang diperlukan untuk mengatasi jenis gambar konteks yang hilang ini dalam Kumpulan Data Klasifikasi Gambar mereka.

Catatan Akhir

Saya berharap bahwa saat berikutnya seorang Data Scientist memberikan tugas Klasifikasi Gambar, dia akan meneruskan informasi dari sinyal ini ke tim anotasi data mereka. Ini pada akhirnya akan membantu tim Pembelajaran Mesin berbagai organisasi dalam mengembangkan Kumpulan Data yang menawarkan citra Objek yang Menarik dan asli. Cogito Tech LLC menyediakan set data pelatihan yang akurat dan berkualitas untuk model ML dan AI.

Enam peringatan yang Anda Abaikan yang Dapat Membahayakan Kumpulan Data Klasifikasi Gambar awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI