PHYRE: как обучить RL-агента решать физические задачи

PHYRE — это 2D-симулятор с 50 видами физических головоломок для обучения RL-агентов. Всего в симуляторе 5 тысяч головоломок. Задачи были разработаны исследователями из FAIR. Несмотря на то, что головоломки в PHYRE относительно просты для человека, они плохо решаются системами, которые успешно играют в Go, StarCraft и DoTA. Проект доступен по ссылке.

PHYRE был разработан для оценки возможности агентов к оперированию физическими законами при решении задачи. Название PHYRE собирается из слов PHYsical REasoning. Сборник создали для того, чтобы поддержать исследования в области систем физического мышления.

Чтобы решить физическую задачу в PHYRE, агенты должны предпринять действие, которое спровоцирует столкновение определенных предметов. В примерах выше правильный бросок красного мячика провоцирует контакт между зеленым и голубым мячиками или между зеленым мячиком и фиолетовой платформой.

Как это работает

PHYRE состоит из 50 коллекций задач, каждая из которых содержит 100 типовых физических головоломок. Каждая головоломка представляет начальное состояние среды и конечную цель. Начальное состояние содержит набор шариков, стаканов, платформ и других простых объектов. Конечная цель формулируется как “нужно, чтобы шарик N коснулся стакана”. Чтобы достичь конечной цель, агент должен поставить на верные места один или больше объектов из среды, а затем ждать, пока все объекты в среде не остановятся. Например, чтобы перенести содержание одного стакана в другой, расположенный ниже, необходимо кинуть мячик так, чтобы он опрокинул содержимое верхнего стакана.

Почему это не так просто

Количество потенциальных действий, которые могут быть предприняты в головоломках, составляет десятки миллионов. Для сравнение, в Go количество возможных действий ограничивается сотнями. Системы, играющие в DoTA и StarCraft, опирались на методы, которые требовали миллионы или миллиарды попыток, чтобы найти решение. Агенты в PHYRE могут максимизировать свою награду, только если минимизируют количество неудачных попыток. Задачи в PHYRE поощряют обучение эффективным стратегиям. Из-за того, что решение физических головоломок предполагает совершение одного действия и результат виден напрямую, у задач в PHYRE нет проблем с назначением награды агенту.