DeepMind dan OpenAI Menggunakan Umpan Balik Manusia untuk Memaksimalkan Kinerja Agen Pembelajaran Penguatan

Pengarang: Jesus Rodriguez

Makalah penelitian dari tahun 2018, memperkenalkan model pelatihan yang menggabungkan umpan balik manusia dan pengoptimalan penghargaan untuk memaksimalkan pengetahuan…

Diterbitkan melalui Menuju AI