YoloV5 vs YoloR – Menuju AI — Publikasi AI dan Teknologi Terkemuka di Dunia

Penulis (s): Dhruv Gangwani

Awalnya diterbitkan di Towards AI the World’s Leading AI and Technology News and Media Company. Jika Anda sedang membangun produk atau layanan terkait AI, kami mengundang Anda untuk mempertimbangkan untuk menjadi sponsor AI. Di Towards AI, kami membantu menskalakan AI dan startup teknologi. Biarkan kami membantu Anda melepaskan teknologi Anda kepada massa.

Pembelajaran Mendalam

Deteksi objek, Mana yang terbaik??

Foto oleh Matt Noble di Unsplash

Daftar Isi

Pendahuluan YoloV5: Asli atau Palsu?? YoloR: Anda Hanya Melihat Satu Kasus Penggunaan Analisis Kinerja Representasi

pengantar

Deteksi objek adalah proses mengidentifikasi dan membedakan objek yang ada dalam gambar melalui beberapa kategori yang telah ditentukan. Proses deteksi objek dibagi menjadi dua langkah:

Temukan jumlah total objek dalam gambar Klasifikasikan objek yang diekstraksi pada langkah pertama dan perkirakan ukurannya

Biasanya ada dua jenis algoritma pendeteksian objek:

Deteksi objek dua tahap: Ini melibatkan proposal wilayah objek diikuti dengan klasifikasi objek dari proposal wilayah dan regresi kotak pembatas. Detektor jenis ini mencapai akurasi tertinggi tetapi lebih lambat dibandingkan dengan jenis detektor lainnya. Beberapa detektor objek tersebut adalah RCNN, Faster-RCNN, dan Mask RCNN. Deteksi objek satu tahap: Ini memprediksi kotak pembatas dari gambar dan menghilangkan langkah langkah proposal wilayah objek. Detektor tersebut sangat cepat dibandingkan dengan detektor dua tahap tetapi menemukan kesulitan dalam mendeteksi benda-benda kecil. Kecepatan inferensi yang cepat membuat detektor satu tahap memenuhi syarat untuk aplikasi waktu nyata. Beberapa detektor tersebut adalah YOLO, SSD, dan YoloR.

Setelah mempelajari tentang berbagai jenis detektor objek, muncul pertanyaan:

“Yang mana yang terbaik ??”

Sangat membingungkan untuk memilih satu dari sekian banyak algoritma. Keputusan bergantung pada banyak faktor dan berbeda untuk setiap use case. Beberapa aplikasi mungkin memerlukan lebih banyak kecepatan inferensi sementara beberapa aplikasi membutuhkan deteksi yang akurat. Seseorang harus memilih detektor satu tahap untuk kasus pertama sedangkan detektor dua tahap untuk yang terakhir. Tapi tetap saja, mana yang terbaik dari masing-masing kategori. Untuk menguji hal yang sama, saya melakukan analisis kinerja dua detektor objek satu tahap yaitu YoloV5 dan YoloR.

YoloV5: Asli atau Palsu ??

Perilisan YoloV5 oleh Ultralytics pada tahun 2020 sendiri menjadi kontroversi besar. Tiga versi pertama Yolo diterbitkan oleh Joseph Redmon dan Ali Farhadi. Kemudian, Joseph menghentikan penelitian visi komputer. Kemudian, YoloV4 diperkenalkan oleh Alexey Bochkovskiy yang melanjutkan warisan Joseph Redmon. Empat versi pertama Yolo diterbitkan dengan makalah penelitian peer-review yang tidak sama dengan YoloV5. Ultralytics mengklaim bahwa YoloV5 memiliki kecepatan inferensi 140 FPS sedangkan YoloV4 memiliki 50 FPS yang sama. Mereka juga mengklaim bahwa ukuran YoloV5 sekitar 90 persen lebih kecil dari YoloV4.

Alexey Bochkovskiy dan beberapa peneliti AI lainnya mengklaim itu menyesatkan karena YoloV5 tidak memiliki dokumen pendukung dan mereka menyatakan perbandingannya tidak akurat. Kemudian, Glenn Jocher, CEO dan Founder Ultralytics, menyatakan bahwa ia dan timnya akan segera menerbitkan makalah penelitian untuk mendukung YoloV5 yang belum selesai.

Referensi YoloV5

YoloR: Kamu Hanya Melihat Satu Representasi

YoloR diterbitkan pada awal tahun 2021 oleh Chien-Yao Wang, I-Hau The, dan Hong-Yuan Mark Liao. Ini pada dasarnya adalah konsep menggabungkan pengetahuan implisit dan eksplisit. Manusia memperoleh pengetahuan eksplisit melalui penglihatan, pendengaran, dan pengalaman, sedangkan pengetahuan implisit diperoleh dari pengalaman masa lalu dan pembelajaran bawah sadar. Seperti namanya, YoloR dikembangkan untuk melakukan beberapa tugas menggunakan satu representasi gambar. Deteksi objek YoloR memperoleh pengetahuan eksplisit dari lapisan dalam dan pengetahuan implisit dari lapisan dangkal. Arsitektur menggabungkan kedua representasi untuk membentuk satu representasi yang selanjutnya dapat digunakan untuk melayani berbagai tugas.

Referensi YoloR

Analisis Kinerja

Ini adalah analisis kinerja YoloV5 (You Only Look Once) dan YoloR (You Only Look One Representation). Kedua model dilatih pada dataset yang sama dengan parameter hiper yang sama.

Himpunan data

Dataset terdiri dari gambar sel darah yang aslinya bersumber terbuka dari cosmicad dan akshaylambda. Ada 364 gambar di tiga kelas yaitu sel darah merah, sel darah putih, dan trombosit. Ada sekitar 4888 label di tiga kelas.

Kumpulan Data BCCD oleh Roboflow Source

Hyperparameter

Seperti disebutkan di bawah, Sangat sedikit parameter hiper yang diperhitungkan untuk kedua model.

Sumber: Gambar oleh Penulis

Metrik

Mean Average Precision adalah metrik di mana kinerja kedua model dievaluasi. Yang pertama adalah MAP dengan 0,5 sebagai ambang batas IOU. Sedangkan yang kedua adalah rata-rata MAP dengan ambang batas IOU bervariasi dari 0,5 hingga 0,95 dengan langkah 0,05.

Sangat jelas bahwa kedua model memiliki performa yang sama baiknya pada dataset validasi. GPU Google collab digunakan selama pelatihan: Nvidia k80 dengan memori 12GB.

Sumber: Gambar oleh Penulis

Analisis

YoloV5: Performa yang lebih baik pada dataset uji meskipun memiliki MAP yang hampir sama dengan YoloR
YoloR: Inferensi memiliki lebih banyak ciri Negatif Palsu

Gunakan Kasus

Dalam beberapa tahun terakhir, deteksi objek telah dipecah menjadi beberapa kasus penggunaan yang berguna untuk perusahaan. Beberapa dari mereka adalah:

Self-driving Car: Untuk mendeteksi kendaraan lain dan pejalan kaki di jalan dan menghitung jarak antara mobil dan objek lain. Juga, untuk mendeteksi papan nama di jalan untuk memastikan bahwa bot yang mengemudi sendiri tidak melanggar aturan mengemudi apa pun. Pengawasan CCTV: Deteksi objek dapat memungkinkan pengawasan video pintar untuk mendeteksi aktivitas mencurigakan tanpa keterlibatan manusia. Selain itu, memori adalah masalah besar dalam hal menyimpan rekaman kamera CCTV secara terus menerus. Ini juga dapat diselesaikan dengan deteksi objek di mana perekaman dimulai ketika ada manusia yang masuk ke dalam bingkai. Ilmu Kedokteran: Deteksi objek sangat membantu umat manusia, di masa pandemi covid. Beberapa industri mengadopsi mekanisme untuk mendeteksi apakah pengunjung memakai masker atau tidak dan berada pada jarak aman satu sama lain. Mencantumkan merek: Perusahaan membayar bom untuk menampilkan nama merek dan logo mereka dalam pertandingan olahraga yang disiarkan. Dalam hal ini, deteksi objek digunakan untuk menganalisis garis waktu pertandingan di mana nama merek dan logo ditampilkan kepada penonton.

Skrip Pelatihan dan Output Inferensi dapat ditemukan di sini

GitHub – DhruvGangwani/YoloV5_vs_YoloR

Terima kasih.

Analisis Kinerja: YoloV5 vs YoloR awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI