Pluribus — это нейросеть, которая побеждает профессиональных игроков в покер. Модель была разработана Facebook совместно с CMU. Исследователи обучили модель, которая выиграла в безлимитный Техасский холдем на 6-х игроков. Каждый из участвовавших профессионалов ранее выиграл более миллиона долларов игрой в покер. Среди них — титулованные Darren Elias и Chris “Jesus” Ferguson.
Игра в покер требует от игрока навыка хитрости и быстрого подстраивания под ход противника. Чтобы выиграть, игроки анализируют оппонентов и делают вид, что имеют более выгодный расклад карт. Эти навыки обычны для человека, но не для текущего state-of-the-art в глубоком обучении.
Pluribus сыграл 5,000 раздач против игроков в покер. Модель систематически выигрывала больше, чем ее оппоненты. В другом тесте, в котором были задействованы 13 сторонних игроков и было 10,000 раздач, нейросеть снова выигрывала. Pluribus выучила некоторые распространенные стратегии (например, “donk betting”) и научилась блефовать.
Видеозапись примера игры нейросети против профессионального игрока доступна ниже.
Pluribus Poker AI: Sample poker hands vs. professionals
Pluribus is the first AI capable of beating human experts in six-player no-limit Hold’em, the most widely played poker format in the world. This is the first time AI has beaten top human players in a complex game with more than two players or two teams.This video shows sample hands from Pluribus’s experiment against professional poker players. (Cards are turned face up to make it easier to see Pluribus’s strategy.)
Опубликовано Facebook AI Среда, 10 июля 2019 г.
Исследователи решили не публиковать алгоритм из-за успешности его результатов. Публикация могла спровоцировать разорение онлайн площадок для игры в покер. Один из профессиональных игроков отметил, что из игры нейросети нельзя было выявить явные слабости стратегии модели, которое можно было использовать в свою пользу. Помимо этого, алгоритм поймал одного из игроков на блефе несколько раз.
В стандартных многопользовательских играх (шахматы, Go) шаги оппонента видны игроку. Это идет вразрез с принципом игры в покер и усложняет задачу обучения алгоритму игре на профессиональном уровне.
Ранее в 2017 Sandholm и Brown разработали нейросеть (Libratus), которая выигрывала в покер с одним оппонентом. Игра более чем с двумя игроками не имеет оптимальной стратегии, в отличие от игры с двумя игроками. Этот факт значительно усложняет процесс принятия решения моделью.
Более подробное описание модели доступно в статье, которую опубликовали в Science.