Учёные из OpenAI и Университета Беркли предложили способ обучения c подкреплением для прохождения игр, наделив нейросеть любопытством. Метод протестировали на 54 средах — аркадах и лабиринтах; в Super Mario Bros искусственный интеллект прошёл 10 уровней без внешнего вознаграждения. Разработчики считают, что любопытство вместо запрограммированной награды поможет роботам принимать решения автономно.
Под любопытством подразумевается внутренняя функция, которая использует ошибку предсказания в качестве вознаграждения. ИИ предсказывает следующий кадр, и лучшим результатом считается тот, который не совпадает с прогнозом.
Алгоритм научился играть в игры без подкрепления, исходя только из любопытства.
Ограничения модели
В ходе экспериментов проявились и недостатки подхода: Game Over тоже воспринимался ИИ как новое впечатление, поэтому иногда он сознательно действовал так, чтобы проиграть.
Команда также провела эксперимент с телевизором, поместив сцену с быстро меняющимися кадрами в лабиринт. Найдя её, ИИ не двигался дальше, потому что научился генерировать новые случайные кадры, и это оказалось самым интересным занятием для «любопытного» алгоритма.
Исходный код проекта доступен на GitHub.
OpenAI — некоммерческая исследовательская компания Илона Маска, которая занимается изучением и разработкой искусственного интеллекта.