Berapa Banyak Data Pelatihan yang Anda Butuhkan untuk Machine Learning? – Menuju AI — Teknologi, Sains, dan Teknik Terbaik

Pengarang: Gaurav Sharma

Pembelajaran mesin

Gambar oleh startuphub.ai

Ini adalah komponen penting dari pembelajaran mesin (ML), dan memiliki kualitas dan jumlah set data yang tepat sangat penting untuk hasil yang akurat. Semakin banyak data pelatihan yang tersedia untuk algoritme pembelajaran mesin, semakin baik model tersebut dapat mengidentifikasi berbagai jenis objek, membuatnya lebih mudah untuk membedakannya dalam prediksi kehidupan nyata.

Namun, bagaimana Anda menentukan seberapa banyak pelatihan yang cukup untuk pembelajaran mesin Anda? Karena data yang tidak mencukupi akan memengaruhi akurasi prediksi model Anda, sementara data yang lebih dari cukup akan memberikan hasil terbaik, pertanyaannya adalah apakah Anda dapat mengelola data besar atau kumpulan data dalam jumlah besar, serta apakah Anda dapat memasukkan data tersebut ke dalam algoritme menggunakan pembelajaran mendalam atau metode yang lebih kompleks.

Kompleksitas model Anda, algoritme pembelajaran mesin, dan pelatihan data atau prosedur validasi semuanya memengaruhi seberapa banyak data pelatihan yang diperlukan untuk pembelajaran mesin. Dan, dalam situasi tertentu, berapa banyak bukti yang diperlukan untuk menunjukkan bahwa satu model lebih unggul dari yang lain. Semua pertimbangan ini dalam menentukan jumlah set data yang tepat memungkinkan kita untuk masuk lebih dalam ke pertanyaan tentang berapa banyak data yang cukup untuk pembelajaran mesin.

Mengapa Anda menanyakan hal ini?

Sangat penting untuk memahami mengapa Anda menanyakan tentang ukuran yang dibutuhkan set data pelatihan.

Langkah Anda selanjutnya mungkin dipengaruhi oleh responsnya.

Pertimbangkan skenario berikut:

1. Apakah Anda memiliki jumlah data yang berlebihan? Pertimbangkan untuk membuat beberapa kurva pembelajaran untuk menentukan ukuran sampel. Atau, gunakan kerangka kerja data besar untuk memanfaatkan semua data yang dapat diakses.

2. Apakah Anda memiliki jumlah data yang tidak mencukupi? Konfirmasikan bahwa Anda memang memiliki data yang tidak mencukupi. Pertimbangkan untuk mengumpulkan data tambahan atau menggunakan teknik augmentasi data untuk meningkatkan ukuran sampel Anda secara artifisial.

3. Apakah Anda sudah mengumpulkan data? Pertimbangkan untuk mengumpulkan beberapa informasi dan menentukan apakah itu cukup. Pertimbangkan untuk berbicara dengan pakar domain dan ahli statistik jika itu untuk penelitian atau pengumpulan data yang mahal.

Lebih umum, Anda mungkin memiliki lebih banyak masalah duniawi, seperti:

Berapa banyak catatan dari database yang harus saya ekspor? Berapa jumlah minimum sampel yang diperlukan untuk mencapai tingkat kinerja yang diinginkan? Seberapa besar set pelatihan untuk mendapatkan perkiraan kinerja model yang baik? Berapa banyak data yang diperlukan untuk menunjukkan bahwa satu model lebih unggul dari yang lain? Haruskah saya menggunakan validasi silang k-fold atau pemisahan kereta/tes?

Jadi, berapa banyak data pelatihan yang Anda butuhkan?

1. Itu tergantung, tidak ada yang memberi tahu Anda dengan tepat

Tidak ada yang bisa memberi tahu Anda berapa banyak data yang Anda perlukan untuk tantangan pemodelan prediktif Anda; tidak ada yang dapat memberi tahu Anda berapa banyak data yang Anda perlukan. Ini tidak dapat diketahui: masalah sulit yang membutuhkan penyelidikan empiris untuk menemukan solusi.

Jumlah data yang dibutuhkan untuk pembelajaran mesin ditentukan oleh sejumlah faktor, termasuk:

Fungsi dasar yang tidak diketahui yang paling baik menghubungkan variabel input Anda ke variabel output karena kompleksitas masalah.

Kesulitan algoritma pembelajaran, yang digunakan untuk mempelajari fungsi pemetaan dasar yang tidak diketahui secara induktif dari kasus-kasus tertentu.

2. Analogi sebagai sarana penalaran

Sebelum Anda, banyak orang mengerjakan banyak tantangan pembelajaran mesin terapan.

Beberapa dari mereka telah mempublikasikan temuan mereka.

Mungkin Anda dapat melihat penelitian tentang situasi yang sebanding dengan situasi Anda untuk mendapatkan gambaran tentang berapa banyak data yang Anda perlukan.

Demikian pula, penelitian tentang bagaimana skala kinerja algoritme dengan ukuran kumpulan data sangat populer. Penelitian semacam itu mungkin dapat memberi tahu Anda berapa banyak data yang Anda perlukan untuk menjalankan algoritme tertentu.

Anda mungkin dapat membuat rata-rata hasil dari banyak penelitian.

3. Manfaatkan pengetahuan domain Anda

Anda akan memerlukan sampel data dari masalah Anda yang khas dari masalah yang sedang Anda kerjakan.

Secara umum, kasus harus tersebar secara merata dan independen.

Ingatlah bahwa kita sedang mempelajari fungsi untuk menerjemahkan data input ke data output dalam machine learning. Fungsi pemetaan yang Anda pelajari hanya akan sebaik data yang Anda berikan untuk dipelajari.

Ini menyiratkan bahwa harus ada data yang cukup untuk menangkap hubungan yang mungkin ada antara fitur input dan antara fitur input dan fitur output.

Gunakan keahlian domain Anda atau cari pakar domain untuk mempertimbangkan domain dan jumlah data yang mungkin diperlukan untuk menangkap kompleksitas masalah yang bermanfaat.

4. Algoritma nonlinier membutuhkan lebih banyak informasi

Algoritma nonlinier biasanya digunakan untuk menggambarkan metode pembelajaran mesin yang lebih canggih.

Mereka dapat mempelajari hubungan nonlinier yang rumit antara karakteristik input dan output menurut definisi. Anda mungkin sudah menggunakan atau berencana untuk menggunakan algoritma semacam ini.

Metode ini seringkali lebih fleksibel, dan dalam beberapa kasus nonparametrik (mereka dapat mengetahui berapa banyak parameter yang diperlukan untuk memodelkan masalah Anda selain nilai parameter tersebut). Mereka juga memiliki varian tinggi, yang berarti bahwa prediksi berbeda tergantung pada data yang digunakan untuk melatihnya. Peningkatan fleksibilitas dan kemampuan ini mengakibatkan lebih banyak data pelatihan, biasanya sejumlah besar data.

Pada kenyataannya, algoritme nonlinier tertentu, seperti pendekatan pembelajaran mendalam, dapat meningkatkan kinerjanya karena lebih banyak data yang disediakan.

Jika metode linier berkinerja baik dengan ratusan contoh per kelas, pendekatan nonlinier seperti hutan acak atau jaringan saraf tiruan mungkin memerlukan ribuan contoh per kelas.

5. Bandingkan ukuran kumpulan data dengan keterampilan model.

Saat membuat algoritme pembelajaran mesin baru, biasanya menampilkan dan bahkan menjelaskan bagaimana kinerja algoritme dalam menanggapi jumlah data atau kesulitan tugas.

Studi ini mungkin atau mungkin belum dilakukan dan diterbitkan oleh pembuat algoritme, dan mungkin ada atau tidak untuk algoritme atau jenis masalah yang sedang Anda kerjakan.

Saya sarankan melakukan penelitian Anda sendiri menggunakan data Anda sendiri dan satu algoritma berkinerja tinggi, seperti hutan acak.

6. Dapatkan Lebih Banyak Data (Apapun yang Dibutuhkan!?)

Meskipun data besar dan pembelajaran mesin sering dibahas bersama, data besar mungkin tidak diperlukan agar sesuai dengan model prediksi Anda.

Beberapa masalah membutuhkan data yang sangat besar atau semua data Anda. Terjemahan mesin statistik sederhana, misalnya:

Jika Anda melakukan pemodelan prediktif klasik, ukuran set pelatihan hampir pasti akan mencapai titik pengembalian yang menurun, dan Anda harus menyelidiki masalah dan model Anda untuk menemukan di mana titik itu.

Perlu diingat bahwa pembelajaran mesin adalah proses induktif. Model hanya dapat menangkap apa yang telah dilihatnya. Jika data pelatihan Anda tidak menyertakan kasus tepi, kemungkinan besar data tersebut tidak akan didukung oleh model.

Jangan Tunggu; Mulai sekarang. Berhentilah menunggu untuk memodelkan masalah Anda dan mulailah membuat model sekarang.

Membiarkan masalah ukuran data pelatihan menghalangi Anda untuk memulai tantangan pemodelan prediktif adalah suatu kesalahan.

Dalam banyak situasi, saya melihat pertanyaan ini sebagai alasan untuk menunda melakukan sesuatu.

Kumpulkan informasi sebanyak mungkin, manfaatkan yang terbaik dari apa yang Anda miliki, dan nilai seberapa sukses model dalam memecahkan masalah Anda.

Pelajari sesuatu, lalu gunakan untuk meningkatkan pemahaman Anda tentang apa yang Anda miliki dengan melakukan analisis lebih lanjut, augmentasi, atau mengumpulkan data baru dari domain Anda.

Catatan Akhir

Kualitas dan jumlah data pelatihan adalah dua aspek terpenting yang dievaluasi oleh insinyur pembelajaran mesin dan ilmuwan data saat membangun model. Namun, akan menjadi lebih jelas di tahun-tahun mendatang berapa banyak data pelatihan yang diperlukan untuk pembuatan model pembelajaran mesin, tetapi untuk saat ini, “semakin banyak semakin baik.” Akibatnya, akan lebih baik bagi Anda jika Anda dapat memperoleh data sebanyak mungkin dan menggunakannya, namun menunggu data penawaran diperoleh dalam waktu lama dapat menyebabkan penundaan dalam proyek Anda.

Ada beberapa perusahaan yang menyediakan set data pembelajaran mesin dan pelatihan AI berkualitas tinggi. Mereka mengumpulkan data, mengklasifikasikannya, dan mengkategorikannya dengan layanan anotasi Gambar untuk memberikan data pelatihan yang diawasi dengan baik dengan biaya rendah.

(Asli

Berapa Banyak Data Pelatihan yang Anda Butuhkan untuk Machine Learning? awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI