fbpx
  • RL-агент от DeepMind обошел человека во всех 57 играх Atari 2600

    DeepMind разработали RL-агента Agent57, который обошел человека во всех 57 играх Atari 2600. Agent57 совмещает в себе алгоритм для эффективного исследования среды с мета-контроллером. Мета-контроллер отвечает за адаптацию исследования среды и кратко- и долгосрочного поведения агента. Atari57 — это стандартный набор задач для проверки работы RL-агентов, который состоит из 57 игровых задач.

    Что нового в работе

    Параметризация

    Исследователи предлагают новый способ параметризации функции состояния и действия. Новый способ позволяет учитывать вклад внутренних (intrinsic) и внешних (extrinsic) наград, что повышает стабильность обучения модели. 

    Мета-контроллер

    Мета-контроллер — это адаптивный механизм для отбора приоритетной политики во время обучения. У политики есть параметры уровня исследования среды и факторов дисконтирования. Это позволяет агенту держать баланс между исследованием среды и эксплуатацией.

    Сравнение с предыдущими агентами

    На текущий момент Agent57 — это единственный RL-агент, который обошел человеческие результаты в Atari на всех играх. 

    Сравнение алгоритмов по количеству игр, в которых они обошли человеческие результаты