fbpx
  • Исследователи из OpenAI обучили нейросеть играть в прятки

    Исследователи из OpenAI обучили RL-агентов играть в прятки в командах. По окончании обучения модели агенты самостоятельно выучили такие стратегии, как искать спрятавшихся, строить укрытия и блокировать предметы, которые помогают ищущим искать спрятавшихся.

    Описание среды

    В среде агенты играют в прятки по командам. Те, кто прячется, (синие) должны избегать поля зрения тех, кто ищет, (красные). Красные, соответственно, получают вознаграждению за то, что находят синих. В среде есть объекты, с которыми могут взаимодействовать игроки, и неподвижные стены, среди которых агенты должны уметь передвигаться. До того как игра начинается, синие агенты получают время на то, чтобы спрятаться.

    Возможности агентов в среде

    Агенты способны выбирать действия из следующего списка:

    • Передвигаться от одной точки в среде к другой и поворачиваться;
    • Видеть объекты, которые попадают в их поле зрения;
    • Агенты осознают дистанцию до объектов, стен и других агентов;
    • Объекты в среде можно хватать и передвигать, если они находятся в поле зрения агента;
    • У агентов есть возможность заключать объекты на месте так, что только члены одной команды могут их передвигать

    Исследователи не учитывали в модели прямое взаимодействие агентов с объектами в среде. Единственный контроль над агентами осуществлялся в вознаграждении синих за то, что их не нашли, и вознаграждение красных за то, что они нашли синих. Агенты получают вознаграждение за командную игру. Если все синие агенты удачно спрятались, каждый из них получает вознаграждения +1. Если синий агент найден красным, у него отнимается 1 балл. Агенты наказываются, если они отходят далеко от места старта игры.

    Архитектура модели

    Исследователи использовали ту же инфраструктуру и алгоритмы для обучения, что и для OpenAI Five и Dactyl. Однако в этой среде агент принимает решение индивидуально и использует собственные наблюдения и память. Агенты используют entity-centric state-based представление среды. Такое представления мира устойчиво к перестановкам объектов и других агентов.

    Каждый объект кодируется и посылается на вход блоку с остаточным механизмом внимания (residual self attention block). Это схоже с тем, как устроены трансформеры, где механизм внимания используется в отношении объектов, а не времени. Объекты, которые не входят в поле зрения агенты, скрываются так, что агент не получает о них никакую информацию.

    Визуализация составных частей модели

    Стратегии игры, которые выучила модель

    Модель выучила стратегии игры для агентов из разных команд. В случае, когда случайным образом выбиралось количество игроков (1-3 на каждую команду), блоков в среде (3-9), количество комнат и дверей, агенты обучились следующим стратегиям:

    • 0 игр: агенты двигаются случайно;
    • 0–22 миллионов игр: красные обучились искать синих;
    • 22–88 миллионов игр: синие обучились строить укрытие, чтобы спрятаться в нем;
    • 88–115 миллионов игр: красные научились использовать трамплины, чтобы перепрыгивать препятствия;
    • 115–388 миллионов игр: синие научились блокировать трамплины, чтобы помешать красным их использовать;
    • 388–458 миллионов игр: красные научились забрасывать коробку в укрытие синих;
    • 458–481 миллионов игр: синие научились блокировать и трамплины, и коробки, чтобы остановить красных

    Это исследование показывает, что агенты в последствии могут обучаться более комплексным стратегиям самостоятельно без прямого указания со стороны системы вознаграждения

    Видеодемонстрация работы нейросети доступна ниже.