RL-агент от DeepMind обошел человека во всех 57 играх Atari 2600

DeepMind разработали RL-агента Agent57, который обошел человека во всех 57 играх Atari 2600. Agent57 совмещает в себе алгоритм для эффективного исследования среды с мета-контроллером. Мета-контроллер отвечает за адаптацию исследования среды и кратко- и долгосрочного поведения агента. Atari57 — это стандартный набор задач для проверки работы RL-агентов, который состоит из 57 игровых задач.

Что нового в работе

Параметризация

Исследователи предлагают новый способ параметризации функции состояния и действия. Новый способ позволяет учитывать вклад внутренних (intrinsic) и внешних (extrinsic) наград, что повышает стабильность обучения модели. 

Мета-контроллер

Мета-контроллер — это адаптивный механизм для отбора приоритетной политики во время обучения. У политики есть параметры уровня исследования среды и факторов дисконтирования. Это позволяет агенту держать баланс между исследованием среды и эксплуатацией.

Сравнение с предыдущими агентами

На текущий момент Agent57 — это единственный RL-агент, который обошел человеческие результаты в Atari на всех играх. 

Сравнение алгоритмов по количеству игр, в которых они обошли человеческие результаты
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt