Нейросеть обучили играть в Пиковую даму, приложение доступно на Android

В приложении для Android можно сыграть в карточную игру с нейросетью. Итеративный подход к обучению, в котором нейросеть играет против своей же реплики, обученной на предыдущем этапе, позволил значительно увеличить ее эффективность.

Правила игры

Grünober Suchen («Пиковая дама») – это карточная игра с 8-ю раундами, рассчитанная на 4-х игроков и разыгрываемая колодой из 32-х карт. Каждый игрок получает по 8 карт. Первый игрок начинает раунд, кладя карту лицевой стороной вверх на стол. Остальные игроки по очереди выкладывают по 1-й карте. Если это возможно, они должны следовать масти первой карты, если нет – можно разыграть любую карту. В раунде побеждает игрок, разыгравший туза масти, соответствующей первой карте. Игрок, выигравший во всех раундах, получает +3 очка, все остальные получают -1 очко. Если игрок выложил пиковую даму и выиграл в последнем раунде, он получает -3 очка, а все остальные получают +1 очко. В противном случае игрок, выложивший пиковую даму, получает -1 очко; игрок, выигравший в последнем раунде, получает -1 очко, а два других игрока получают по +1 очку.

Обучение нейросети

Особенность нейронной сети состоит в том, чтобы она обучается самостоятельно, без участия человека. Сначала, не имея обученной модели, смоделированные игроки выбирают карты случайным образом, из разрешенных правилами вариантов. Чтобы игра была честной, каждый игрок знает только свои карты, но может считать выбывшие карты. Выходными данными является рейтинг каждой из карт, которой можно походить, рассчитываемый на основе имеющихся входных данных перед каждым ходом. После обучения модель понимает, ход какой картой наиболее вероятно приведет к выигрышу.

Рис. 1. Среднее количество очков, набранных нейронной сетью (слева) и процент игр, в которых нейронная сеть выиграла во всех раундах, при обучении со случайными картами (синие кривые), при обучении с репликой модели на предыдущем этапе обучения (оранжевые кривые) и при смешанном формате обучения (зеленые кривые).

Наиболее эффективной тактикой обучения оказалась итеративная, в которой нейросеть ходит не против игроков, выкладывающих случайные карты, а против своей же реплики, обученной на предыдущем этапе (рис. 1). Дополнительно можно управлять сложностью игры путем уменьшения количества карт соперников, отслеживаемых нейросетью, и внесением искусственных ошибок в ходы нейросети.

Приложение для Android доступно по ссылке.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt