DeepMind разработали RL-агента Agent57, который обошел человека во всех 57 играх Atari 2600. Agent57 совмещает в себе алгоритм для эффективного исследования среды с мета-контроллером. Мета-контроллер отвечает за адаптацию исследования среды и кратко- и долгосрочного поведения агента. Atari57 — это стандартный набор задач для проверки работы RL-агентов, который состоит из 57 игровых задач.
Что нового в работе
Параметризация
Исследователи предлагают новый способ параметризации функции состояния и действия. Новый способ позволяет учитывать вклад внутренних (intrinsic) и внешних (extrinsic) наград, что повышает стабильность обучения модели.
Мета-контроллер
Мета-контроллер — это адаптивный механизм для отбора приоритетной политики во время обучения. У политики есть параметры уровня исследования среды и факторов дисконтирования. Это позволяет агенту держать баланс между исследованием среды и эксплуатацией.
Сравнение с предыдущими агентами
На текущий момент Agent57 — это единственный RL-агент, который обошел человеческие результаты в Atari на всех играх.