Neural MMO — игровая среда для обучения агентов с подкреплением

OpenAI представила Neural MMO — игровую среду с открытым исходным кодом для обучения множества агентов с подкреплением одновременно. В RPG ИИ-боты будут выполнять задания и сражаться между собой за ресурсы. Цель — создавать агентов, которых затем можно масштабировать для выполнения сложных задач в реальном мире.

В блоге разработчики пишут, что в последние годы многопользовательские среды стали эффективной платформой для обучения ИИ-агентов. Однако существует две проблемы: имеющиеся ММО являются либо чрезмерно сложными и узконаправленными, либо открытыми, но очень простыми. По мнению OpenAI, нужно больше эталонных многоагентных сред, чтобы стимулировать и оценить прогресс в обучении. Чем больше агентов будут соревноваться между собой, тем больше будет возможностей для исследования и улучшения их навыков.

Платформа Neural MMO представляет собой генератор среды.

Игровая среда

Боты появляются в среде состоящей из плиток заранее заданного размера, каждая из которых имитирует лес, траву, воду или камни. В игре агенты могут совершить одно движение и одну атаку за заданный момент времени. Их задача — найти ограниченные ресурсы (пищу и воду) и атаковать ботов из команды противника. Вместо того, чтобы получать вознаграждение за достижение определенных целей, боты получают награду за каждый такт своей жизни.

Максимальный размер популяции агентов варьируется (16, 32, 64, 128). Оценивается время жизни при фиксированном размере популяции. По результатам, агенты, которые тренируются в больших популяциях всегда лучше справляются с задачами.

В ходе экспериментов разработчики обнаружили, что чем дольше агенты взаимодействуют друг с другом, тем лучше они выполняют определенные задачи. Кроме того большее количество ботов на карте стимулировало усиленный поиск ресурсов и заставляло их распределяться по территории более равномерно.

Открытый код Neural MMO доступен на GitHub. Платформа поддерживает 100 млн жизней для 128 агентов одновременно на каждом из 100 серверов. MMO также позволяет сравнивать показатели агентов для более эффективного обучения. Подробнее о симуляторе можно прочесть в блоге разработчиков.