Исследователи из OpenAI обучили нейросеть играть в прятки

Исследователи из OpenAI обучили RL-агентов играть в прятки в командах. По окончании обучения модели агенты самостоятельно выучили такие стратегии, как искать спрятавшихся, строить укрытия и блокировать предметы, которые помогают ищущим искать спрятавшихся.

Описание среды

В среде агенты играют в прятки по командам. Те, кто прячется, (синие) должны избегать поля зрения тех, кто ищет, (красные). Красные, соответственно, получают вознаграждению за то, что находят синих. В среде есть объекты, с которыми могут взаимодействовать игроки, и неподвижные стены, среди которых агенты должны уметь передвигаться. До того как игра начинается, синие агенты получают время на то, чтобы спрятаться.

Возможности агентов в среде

Агенты способны выбирать действия из следующего списка:

  • Передвигаться от одной точки в среде к другой и поворачиваться;
  • Видеть объекты, которые попадают в их поле зрения;
  • Агенты осознают дистанцию до объектов, стен и других агентов;
  • Объекты в среде можно хватать и передвигать, если они находятся в поле зрения агента;
  • У агентов есть возможность заключать объекты на месте так, что только члены одной команды могут их передвигать

Исследователи не учитывали в модели прямое взаимодействие агентов с объектами в среде. Единственный контроль над агентами осуществлялся в вознаграждении синих за то, что их не нашли, и вознаграждение красных за то, что они нашли синих. Агенты получают вознаграждение за командную игру. Если все синие агенты удачно спрятались, каждый из них получает вознаграждения +1. Если синий агент найден красным, у него отнимается 1 балл. Агенты наказываются, если они отходят далеко от места старта игры.

Архитектура модели

Исследователи использовали ту же инфраструктуру и алгоритмы для обучения, что и для OpenAI Five и Dactyl. Однако в этой среде агент принимает решение индивидуально и использует собственные наблюдения и память. Агенты используют entity-centric state-based представление среды. Такое представления мира устойчиво к перестановкам объектов и других агентов.

Каждый объект кодируется и посылается на вход блоку с остаточным механизмом внимания (residual self attention block). Это схоже с тем, как устроены трансформеры, где механизм внимания используется в отношении объектов, а не времени. Объекты, которые не входят в поле зрения агенты, скрываются так, что агент не получает о них никакую информацию.

Визуализация составных частей модели

Стратегии игры, которые выучила модель

Модель выучила стратегии игры для агентов из разных команд. В случае, когда случайным образом выбиралось количество игроков (1-3 на каждую команду), блоков в среде (3-9), количество комнат и дверей, агенты обучились следующим стратегиям:

  • 0 игр: агенты двигаются случайно;
  • 0–22 миллионов игр: красные обучились искать синих;
  • 22–88 миллионов игр: синие обучились строить укрытие, чтобы спрятаться в нем;
  • 88–115 миллионов игр: красные научились использовать трамплины, чтобы перепрыгивать препятствия;
  • 115–388 миллионов игр: синие научились блокировать трамплины, чтобы помешать красным их использовать;
  • 388–458 миллионов игр: красные научились забрасывать коробку в укрытие синих;
  • 458–481 миллионов игр: синие научились блокировать и трамплины, и коробки, чтобы остановить красных

Это исследование показывает, что агенты в последствии могут обучаться более комплексным стратегиям самостоятельно без прямого указания со стороны системы вознаграждения

Видеодемонстрация работы нейросети доступна ниже.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt