Исследователи из OpenAI обучили нейросеть играть в прятки

Исследователи из OpenAI обучили RL-агентов играть в прятки в командах. По окончании обучения модели агенты самостоятельно выучили такие стратегии, как искать спрятавшихся, строить укрытия и блокировать предметы, которые помогают ищущим искать спрятавшихся.

Описание среды

В среде агенты играют в прятки по командам. Те, кто прячется, (синие) должны избегать поля зрения тех, кто ищет, (красные). Красные, соответственно, получают вознаграждению за то, что находят синих. В среде есть объекты, с которыми могут взаимодействовать игроки, и неподвижные стены, среди которых агенты должны уметь передвигаться. До того как игра начинается, синие агенты получают время на то, чтобы спрятаться.

Возможности агентов в среде

Агенты способны выбирать действия из следующего списка:

Передвигаться от одной точки в среде к другой и поворачиваться;
Видеть объекты, которые попадают в их поле зрения;
Агенты осознают дистанцию до объектов, стен и других агентов;
Объекты в среде можно хватать и передвигать, если они находятся в поле зрения агента;
У агентов есть возможность заключать объекты на месте так, что только члены одной команды могут их передвигать

Исследователи не учитывали в модели прямое взаимодействие агентов с объектами в среде. Единственный контроль над агентами осуществлялся в вознаграждении синих за то, что их не нашли, и вознаграждение красных за то, что они нашли синих. Агенты получают вознаграждение за командную игру. Если все синие агенты удачно спрятались, каждый из них получает вознаграждения +1. Если синий агент найден красным, у него отнимается 1 балл. Агенты наказываются, если они отходят далеко от места старта игры.

Архитектура модели

Исследователи использовали ту же инфраструктуру и алгоритмы для обучения, что и для OpenAI Five и Dactyl. Однако в этой среде агент принимает решение индивидуально и использует собственные наблюдения и память. Агенты используют entity-centric state-based представление среды. Такое представления мира устойчиво к перестановкам объектов и других агентов.

Каждый объект кодируется и посылается на вход блоку с остаточным механизмом внимания (residual self attention block). Это схоже с тем, как устроены трансформеры, где механизм внимания используется в отношении объектов, а не времени. Объекты, которые не входят в поле зрения агенты, скрываются так, что агент не получает о них никакую информацию.

Стратегии игры, которые выучила модель

Модель выучила стратегии игры для агентов из разных команд. В случае, когда случайным образом выбиралось количество игроков (1-3 на каждую команду), блоков в среде (3-9), количество комнат и дверей, агенты обучились следующим стратегиям:

0 игр: агенты двигаются случайно;
0–22 миллионов игр: красные обучились искать синих;
22–88 миллионов игр: синие обучились строить укрытие, чтобы спрятаться в нем;
88–115 миллионов игр: красные научились использовать трамплины, чтобы перепрыгивать препятствия;
115–388 миллионов игр: синие научились блокировать трамплины, чтобы помешать красным их использовать;
388–458 миллионов игр: красные научились забрасывать коробку в укрытие синих;
458–481 миллионов игр: синие научились блокировать и трамплины, и коробки, чтобы остановить красных

Это исследование показывает, что агенты в последствии могут обучаться более комплексным стратегиям самостоятельно без прямого указания со стороны системы вознаграждения

Видеодемонстрация работы нейросети доступна ниже.