ReBeL: RL-агент от FAIR для игры в шахматы, покер и Go

Исследователи из Facebook AI разработали универсальную модель, которая играет в шахматы, покер и Go. ReBeL — это вероятностная модель, которая объединяет в себе обучение с подкреплением и поиск при поиске оптимального хода. Модель обходит человека в игре Техассий холдем и выдает сравнимые результаты, играя в шахматы и Go.

Ограничение прошлых моделей

Прошлые нейросетевые модели, которые играли в игры лучше людей, фокусировались обычно на одной игре. Ранее не предлагали универсального фреймворка для игры. Исследователи из FAIR обучили RL-агента играть в игры с полной и неполной информацией.

Подробнее про модель

ReBeL — это универсальная вероятностная модель, которая адаптирована под игры с двумя игроками и нулевой суммой (zero-sum games). Она способно принимать рещения и играть с использованием факторизованного распределения вероятностей разных стратегий, которых другие игроки могут придерживаться.

Метод оценивали на двух играх: вариация покера Техасский холдем и Liar’s Dice. Результаты показали, что модель обходит человека в игре в покер. Подробности реализации модели и оценки ее качества доступны в официальном посте.