Pembelajaran dengan Pengawasan Sendiri – Menuju AI — Publikasi AI dan Teknologi Terkemuka di Dunia

Pengarang: Adeel

Pembelajaran mesin

Memprediksi segalanya dari yang lainnya

Foto oleh Shirota Yuri di Unsplash

Pembelajaran mesin secara luas dibagi menjadi masalah pembelajaran terawasi, tidak terawasi, semi-diawasi, dan penguatan. Pembelajaran mesin telah menikmati sebagian besar keberhasilan dengan mengatasi masalah pembelajaran yang diawasi. Data dalam tugas pembelajaran yang diawasi diberi label dan karenanya memberikan lebih banyak peluang peningkatan kinerja untuk model canggih.

Pembelajaran mendalam melalui pembelajaran yang diawasi juga telah mencapai kesuksesan yang luar biasa belakangan ini. Dari klasifikasi gambar hingga terjemahan bahasa, kinerjanya meningkat. Namun, mengumpulkan kumpulan data berlabel besar itu mahal dan tidak mungkin dilakukan di beberapa domain seperti kumpulan data medis untuk penyakit langka. Jenis kumpulan data ini memberikan banyak peluang untuk algoritme yang diawasi sendiri untuk lebih meningkatkan kinerja model prediktif.

Pembelajaran yang diawasi sendiri bertujuan untuk mempelajari representasi informasi dari data yang tidak berlabel. Biasanya, dalam hal ini, kumpulan data berlabel relatif lebih kecil daripada kumpulan data tidak berlabel. Pembelajaran yang diawasi sendiri menggunakan data tidak berlabel ini dan melakukan tugas dalih dan pembelajaran kontrastif.

Dalam posting yang sangat bagus tentang pembelajaran yang diawasi sendiri, Jeremey Howard mendefinisikan pembelajaran yang diawasi menjadi dua fase: “tugas yang kita gunakan untuk prapelatihan dikenal sebagai tugas dalih. Tugas-tugas yang kemudian kita gunakan untuk fine-tuning dikenal sebagai tugas-tugas hilir”. Contoh pembelajaran yang diawasi sendiri termasuk prediksi kata masa depan, prediksi kata bertopeng dalam lukisan, pewarnaan, dan resolusi super.

Pembelajaran mandiri untuk Computer Vision

Metode pembelajaran yang diawasi sendiri bergantung pada struktur data spasial dan semantik. Untuk gambar, pembelajaran struktur spasial sangat penting. Teknik yang berbeda termasuk rotasi, jigsaw puzzle, dan pewarnaan digunakan sebagai tugas dalih untuk mempelajari representasi dari gambar. Untuk pewarnaan, sebuah foto skala abu-abu diberikan sebagai masukan dan versi warna dari foto tersebut dihasilkan. Makalah oleh Zhang et al. [1] menjelaskan proses pewarnaan yang menghasilkan pewarnaan yang hidup dan realistis.

Gambar 1: Gambar diambil dari makalah oleh Zhang et al. [1]

Metode lain yang banyak digunakan untuk pembelajaran mandiri untuk visi komputer adalah menempatkan tambalan gambar. Contohnya termasuk makalah oleh Doersch et al. [2]. Dalam karya ini, kumpulan data gambar besar yang tidak berlabel disediakan dan pasangan tambalan acak diekstraksi darinya. Setelah langkah awal, jaringan saraf convolutional memprediksi posisi patch kedua relatif terhadap yang pertama. Gambar 2 mengilustrasikan prosesnya.

Gambar 2: Gambar diambil dari kertas oleh Doersch et al. [2]

Ada berbagai metode lain yang digunakan untuk pembelajaran mandiri termasuk melukis dan mengklasifikasikan gambar yang rusak. Jika Anda tertarik dengan topik ini, silakan periksa referensi [3]. Ini memberikan tinjauan literatur tentang topik yang disebutkan.

Pembelajaran mandiri untuk Pemrosesan Bahasa Alami

Metode pembelajaran mandiri telah menjadi yang paling umum dalam kasus tugas pemrosesan bahasa alami. Pendekatan “Continuous Bag of Words” dari makalah Word2Vec adalah contoh paling terkenal dari pembelajaran mandiri.

Demikian pula, ada metode lain yang berbeda yang digunakan untuk pembelajaran mandiri termasuk Prediksi Kata Tetangga, Prediksi Kalimat Tetangga, Pemodelan Bahasa Auto-regresif, dan Pemodelan Bahasa Bertopeng. Formulasi pemodelan bahasa bertopeng telah digunakan dalam makalah BERT, RoBERTa dan ALBERT. Dalam tugas ini, sebagian kecil dari kata-kata bertopeng diprediksi.

Contoh terbaru dari pembelajaran mandiri untuk teks termasuk makalah oleh Zhang et al. [4]. Para penulis mengusulkan mekanisme pembuatan kalimat celah. Mekanisme ini digunakan untuk tugas hilir meringkas abstrak.

Gambar 3: Gambar diambil dari makalah oleh Zhang et al. [4]

Sebuah blog yang sangat menarik tentang topik ini telah ditulis oleh Liu. Silahkan dibaca untuk menambah wawasan.

Pembelajaran mandiri untuk Data Tabular

Pembelajaran mandiri pada gambar dan teks telah progresif. Namun, metode pengawasan mandiri yang ada tidak efektif untuk data tabular. Data tabular tidak memiliki struktur spasial atau semantik yang digarisbawahi dan karenanya teknik yang ada mengandalkan struktur spasial dan semantik tidak berguna.

Sebagian besar data tabular melibatkan fitur kategoris dan fitur ini tidak memiliki kombinasi cembung yang berarti. Bahkan untuk variabel kontinu, tidak ada jaminan bahwa manifold datanya cembung. Tantangan tersebut menghasilkan arah penelitian baru bagi para peneliti. Saya akan menjelaskan secara singkat beberapa pekerjaan yang dilakukan di area ini.

Pekerjaan yang dilakukan oleh Vincent et al. [5] mengusulkan mekanisme de-noising auto-encoder. Tugas dalih adalah memulihkan sampel asli dari sampel yang rusak. Dalam makalah lain, Pathak et al. [6] mengusulkan encoder konteks, tugas dalihnya adalah merekonstruksi sampel asli dari sampel yang rusak dan vektor topeng.

Penelitian tentang Tabnet [7] dan TaBERT [8]juga merupakan pekerjaan progresif menuju pembelajaran yang diawasi sendiri. Dalam kedua studi ini, tugas dalihnya adalah memulihkan data tabel yang rusak. TabNet berfokus pada mekanisme perhatian dan memilih fitur untuk alasan dari setiap langkah dan di sisi lain, TABERT, mempelajari representasi untuk kalimat bahasa alami dan tabel semi-terstruktur.

Gambar 4: Gambar diambil dari kertas TabNet [7]

Karya terbaru (VIME) [9] menyarankan tugas dalih baru untuk memulihkan vektor topeng dan sampel asli dengan teknik pembuatan sampel baru yang rusak. Penulis juga mengusulkan mekanisme augmentasi data tabular baru yang dapat dikombinasikan dengan pembelajaran kontrastif untuk memperluas pembelajaran terawasi untuk data tabular. Seperti yang dijelaskan di blog saya sebelumnya: “Sampel yang rusak dibuat menggunakan generator bertopeng yang menghasilkan vektor topeng biner dan sampel input. Perhatikan bahwa sampel input dihasilkan dari kumpulan data yang tidak berlabel”.

Gambar 5: Gambar diambil dari kertas oleh Yoon et al. [9]

Pembelajaran yang diawasi sendiri adalah norma baru dalam pembelajaran yang mendalam. Teknik pembelajaran mandiri untuk gambar dan data teks sangat mengagumkan karena masing-masing mengandalkan korelasi spasial dan sekuensial. Namun, tidak ada struktur korelasi umum dalam data tabular. Hal ini membuat pembelajaran mandiri untuk data tabular lebih menantang.

Terima kasih telah membaca artikel saya. Sampai Lain waktu…

Selamat membaca!

Referensi:

[1] Richard Zhang, Phillip Isola, dan Alexei A. Efros, Pewarnaan gambar berwarna-warni (2016), Dalam konferensi Eropa tentang visi komputer

[2] Carl Doersch, Abhinav Gupta, dan Alexei A. Efros, Pembelajaran representasi visual tanpa pengawasan dengan prediksi konteks (2015), Dalam Prosiding konferensi internasional IEEE tentang visi komputer

[3] Longlong Jing, dan Yingli Tian, ​​Pembelajaran fitur visual yang diawasi sendiri dengan jaringan saraf yang dalam: Sebuah survei (2020), transaksi IEEE pada analisis pola dan kecerdasan mesin

[4] Jingqing Zhang, Yao Zhao, Mohammad Saleh, dan Peter Liu, Pegasus: Pra-pelatihan dengan kalimat celah yang diekstraksi untuk ringkasan abstrak (2020), Dalam Konferensi Internasional tentang Pembelajaran Mesin

[5] Pascal Vincent, Hugo Larochelle, Yoshua Bengio, dan Pierre-Antoine Manzagol, Mengekstrak dan menyusun fitur-fitur tangguh dengan denoising autoencoder (2008), Dalam Prosiding konferensi internasional ke-25 tentang Pembelajaran mesin

[6] Deepak Pathak, Philipp Krahenbuhl, Jeff Donahue, Trevor Darrell, dan Alexei A. Efros, Encoders konteks: Pembelajaran fitur dengan inpainting (2016), Dalam Prosiding konferensi IEEE tentang visi komputer dan pengenalan pola

[7] Serkan . Arik, dan Tomas Pfister, Tabnet: Attentive interpretable table learning (2021), Dalam Prosiding Konferensi AAI tentang Kecerdasan Buatan

[8] Pengcheng Yin, Graham Neubig, Wen-tau Yih, dan Sebastian Riedel, TaBERT: Prapelatihan untuk Pemahaman Bersama Data Tekstual dan Tabular (2020), Dalam Prosiding Pertemuan Tahunan ke-58 Asosiasi Linguistik Komputasi

[9] Jinsung Yoon, Yao Zhang, James Jordon, dan Mihaela van der Schaar, Vime: Memperluas keberhasilan pembelajaran mandiri dan semi-diawasi ke domain tabular (2020), Kemajuan dalam Sistem Pemrosesan Informasi Saraf

Self-Supervised Learning awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI

Mytrix Gamer Xtreme dari Cyber-Powerpc VR 3060 Gaming PC, Core i5-11600KF Generasi ke-11 3.9GHz, GeForce RTX 3060 12GB, RAM DDR4 32GB, SSD 1TB+1TB HDD, USB-C, HDMI/DP, RJ-45, Wi- Fi, RGB, Menangkan 10

$1,684.99 (per 2 November 2021 17:08 GMT -04:00 – Info lebih lanjutHarga dan ketersediaan produk akurat pada tanggal/waktu yang ditunjukkan dan dapat berubah. Informasi harga dan ketersediaan apa pun ditampilkan di [relevant Amazon Site(s), as applicable] pada saat pembelian akan berlaku untuk pembelian produk ini. %site_host% adalah peserta dalam Program Associates Amazon Services LLC, program periklanan afiliasi yang dirancang untuk menyediakan sarana bagi situs untuk mendapatkan biaya komisi dengan mengiklankan dan menautkan ke situs web berikut. %associates_list%)