Мультиагентная RL-система получила титул Грандмастера в StarCraft II

Модель AlphaStar от DeepMind обучилась играть в StarCraft II на уровне Грандмастера. В общем рейтинге модель обошла 99.8% активных игроков. Уровень Грандмастера был достигнут для всех трех типов игроков: Protoss, Terran и Zerg. В начале года AlphaStar соревновалась против двоих лучших игроков в StarCraft II.

4 отличия текущего исследования

Текущее исследование отличается от предыдущего следующим:

AlphaStar теперь играет с теми же ограничениями, с какими играют обычные люди. Ограничения включают в себя ограниченный обзор и ограничение частоты действий;
Модель обучили играть один-на-один за и с такими игроками, как Protoss, Terran и Zerg. Каждый вид игрока представляет собой отдельную нейросеть;
Обучение полностью автоматизировано и включает только агентов, которые были обучены на размеченных данных, а не на данных предыдущих агентов;
Система обучается на официальном сервере игры с использованием тех же карт и условий, которые доступны обычным игрокам. Записи игр системы доступны по ссылке

Исследователи выбрали использовать нейросети, обучение с подкреплением, мультиагентное обучение и имитационное обучения, чтобы обучить модель напрямую на данных игры. Игра в такие игры, как StarCraft, требует от агентов устойчивости и адаптивности при принятии решений. На каждом временном шаге у агента 10^26 возможных вариантов действий. Обученные на сложных играх модели могут масштабироваться для решения задач из реальной жизни.

Результаты работы AlphaStar представлены ниже.