Нейросеть AlphaStar от разработчиков DeepMind обыграла двух профессиональных игроков StarСraft II в двух сериях по 5 игр подряд (всего 10 игр подряд). В последнем матче серии игрок Гжегож Коминц (MaNa) все же смог победить искусственный интеллект.
DeepMind — это дочерняя компания Google Alphabet. Ранее другой алгоритм разработчиков — AlphaZero — стал абсолютным чемпионом среди алгоритмов по го, сёги и шахматам.
Алгоритм AlphaStar
AlphaStar учился играть, используя метод обучения с подкреплением. Нейросеть старается достичь цели, обучаясь с помощью проб и ошибок. Сначала алгоритм копирует игру людей, а затем играет против самого себя, каждый раз оставляя более сильную версию. Перед играми AlphaStar обучался в течение 3 дней и за это время набрал 200 лет игрового опыта.
StarСraft II — популярная стратегия, в которой игроки выбирают одну из трех расс, создают базы, а затем сражаются за ресурсы и территории.
Посмотрите трансляцию матчей игр ИИ против профессиональных игроков:
В играх бот совершал в среднем меньше действий в минуту, чем человек. Скорость кликов тоже не превышала человеческую. При этом алгоритму была доступна вся карта сразу, в то время как люди должны были вручную перемещаться по ней. Разработчики отметили, что в реальности это никак не влияет на работу нейросети. Она все равно фокусируется только на той части карты, где происходит игра. Стоит отметить, что в единственной игре, где победил MaNa, ИИ играл с ограниченным обзором камеры.
Игры по типу StarCraft чрезвычайно сложны для алгоритмов, потому что не имеют четкой стратегии, и получаемая информация ограничена текущим ходом. Результаты действий игроков будут видны только по прошествии времени.
Цель работы исследователей DeepMind не в том, чтобы научить ИИ побеждать людей, а в том, чтобы совершенствовать процесс обучения алгоритмов. Методы, используемые в StarСraft II будут полезны для работы с неполной информацией, например в задачах стратегического планирования.