RL-агент от DeepMind обошел человека во всех 57 играх Atari 2600

DeepMind разработали RL-агента Agent57, который обошел человека во всех 57 играх Atari 2600. Agent57 совмещает в себе алгоритм для эффективного исследования среды с мета-контроллером. Мета-контроллер отвечает за адаптацию исследования среды и кратко- и долгосрочного поведения агента. Atari57 — это стандартный набор задач для проверки работы RL-агентов, который состоит из 57 игровых задач.

Что нового в работе

Параметризация

Исследователи предлагают новый способ параметризации функции состояния и действия. Новый способ позволяет учитывать вклад внутренних (intrinsic) и внешних (extrinsic) наград, что повышает стабильность обучения модели.

Мета-контроллер

Мета-контроллер — это адаптивный механизм для отбора приоритетной политики во время обучения. У политики есть параметры уровня исследования среды и факторов дисконтирования. Это позволяет агенту держать баланс между исследованием среды и эксплуатацией.