DeepMind dan OpenAI Menggunakan Umpan Balik Manusia untuk Memaksimalkan Kinerja Agen Pembelajaran Penguatan
on
| Pengarang: Jesus Rodriguez
Makalah penelitian dari tahun 2018, memperkenalkan model pelatihan yang menggabungkan umpan balik manusia dan pengoptimalan penghargaan untuk memaksimalkan pengetahuan…
Lanjutkan membaca di Menuju AI »
Diterbitkan melalui Menuju AI