Pembelajaran Aktif dan Pembelajaran Semi-diawasi mengubah data Anda yang tidak berlabel menjadi data beranotasi

Pengarang: Edward Ma

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Pembelajaran mesin

Pembelajaran Aktif dan Pembelajaran Semi-diawasi

Foto oleh Vadim Fomenok di Unsplash

Pembelajaran Aktif adalah salah satu strategi pengajaran yang melibatkan peserta didik (misalnya siswa) untuk berpartisipasi dalam proses pembelajaran secara aktif. Dibandingkan dengan proses pembelajaran tradisional, peserta didik tidak hanya duduk dan mendengarkan tetapi bekerja sama dengan guru secara interaktif. Kemajuan belajar dapat disesuaikan dengan umpan balik dari peserta didik. Oleh karena itu, siklus belajar aktif sangat penting. Jika Anda tidak terbiasa dengan pembelajaran aktif, Anda dapat mengunjungi posting ini.

Pembelajaran semi-diawasi adalah cara untuk menggabungkan data berlabel dan data tidak berlabel untuk pelatihan model. Asumsi dari pendekatan ini adalah asumsi kontinuitas, asumsi cluster dan asumsi manifold. Singkatnya, titik data berbagi label yang sama jika mereka saling berdekatan.

Pembelajaran Hibrida

Han dkk. (2016) mengusulkan untuk menggabungkan pembelajaran aktif dan pembelajaran semi-diawasi untuk klasifikasi suara. Tentu saja, kami dapat menerapkannya di area lain seperti teks, video, dll. Praktisi memanfaatkan pendekatan pembelajaran aktif untuk memperkirakan titik data paling berharga untuk pelabelan. Namun, mereka melangkah lebih jauh dengan memperkenalkan pembelajaran semi-diawasi untuk memperkirakan sebagian besar kepercayaan yang tidak berlabel setelah setiap putaran iterasi.

Gambaran

Anda dapat melihat diagram alir berikut untuk memahami cara kerja pendekatan yang disebutkan di atas. Berikut pseudonya:

Kami memiliki sejumlah besar data tidak berlabel dan data berlabel terbatas di awal. Lakukan proses pembelajaran aktif normal untuk melakukan anotasi data. Sesuaikan data berlabel awal dan data beranotasi baru untuk melatih model klasifikasi dan mengklasifikasikannya. Jika kepercayaan lebih tinggi dari ambang batas yang ditentukan sebelumnya (katakanlah 85%), kami akan menetapkan label untuk data tersebut. Ulangi langkah 2 hingga langkah 4 hingga titik keluar. Misalnya, diperoleh 500 data beranotasi atau kinerja model mencapai akurasi tertentu.

Pembelajaran Aktif + Pembelajaran Semi-diawasi Persudo

Pengambilan Sampel Paling Percaya Diri

Ceritanya belum selesai. Salah satu yang luar biasa adalah bagaimana kita mengontrol data yang dipelajari sendiri. Dengan menetapkan ambang batas yang tinggi, kami dapat memastikan bahwa kandidat kemungkinan besar termasuk dalam kategori tertentu. Namun, kita tidak boleh begitu saja mempercayainya karena beberapa alasan.

Pertama-tama, ini dapat menyebabkan ketidakseimbangan data. Jika model bekerja dengan sangat baik dalam satu atau beberapa kategori, data yang dipelajari sendiri tersebut akan termasuk dalam satu atau beberapa kategori tersebut dan menyebabkan ketidakseimbangan data setelah beberapa iterasi.

Untuk mengontrol kemajuan, kita harus memperoleh data yang dipelajari sendiri secara progresif. Alih-alih memilih titik data tersebut lebih tinggi dari ambang batas, pengambilan sampel acak beberapa di antaranya adalah pendekatan yang lebih baik.

Kode Python oleh NLPatl

NLPatl menyediakan pembelajaran semi-diawasi dalam pembelajaran aktif. Anda hanya perlu menyesuaikan data Anda dengannya dan Anda dapat membubuhi keterangan pada titik data yang paling berharga dan titik data yang dipelajari sendiri. Mari bersiap-siap untuk mengotori tangan Anda. Saya akan menjelaskan bagaimana Anda bisa menerapkan pembelajaran aktif di NLP dengan beberapa baris kode. Anda dapat mengunjungi buku catatan ini untuk versi lengkap kodenya.

# Inisialisasi pendekatan pengambilan sampel entropi untuk memperkirakan data paling berharga untuk pelabelan
pembelajaran = Pembelajaran SemiSupervised(
pengambilan sampel = pengambilan sampel,
embeddings_model=model embeddings,
klasifikasi_model=model_klasifikasi
) # Label data di notebook secara interaktif
learning.explore_educate_in_notebook(train_texts, num_sample=2)

Referensi

Suka belajar?

Saya Data Scientist di Bay Area. Berfokus pada state-of-the-art dalam Ilmu Data, Kecerdasan Buatan, terutama dalam NLP dan terkait platform. Jangan ragu untuk terhubung dengan saya di LinkedIn atau Github.

Pembelajaran Aktif dan Pembelajaran Semi-diawasi mengubah data tidak berlabel Anda menjadi data beranotasi awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI