RWRL: набор задач для применения обучения с подкреплением

RWRL — это набор из 9 сложностей, которые на текущий момент ограничивают применение обучения с подкреплением в реальных продуктах. В RWRL доступно 5 сред: cartpole, walker, quadriped, manipulator и humanoid. Разработкой библиотеки занимались исследователи из Google AI.

Описание проблемы

Обучение с подкреплением показало себя эффективным в решении таких задач, как игра в Go, StarCraft и Minecraft, дизайн чипов и управление роботом. Во всех этих случаях для обучения агентов были доступны симуляторы или реальная среда. Несмотря на это, для значительного числа задач, где может быть применим RL, среда для обучения недоступна. В RWRL собраны симуляторы для набора прикладных задач, в которых может применяться RL. Это позволяет сократить расходы на обучение и тестирование алгоритмов.

Что внутри RWRL

Набор челленджей RWRL был вдохновлен состоит из прикладных задач обучения с подкреплением. Цель RWRL — сделать процесс исследования RL-алгоритмов быстрее и дешевле в контексте обучения и тестирования. На текущий момент RWRL поддерживает сабсет домейнов из DeepMind Control Suite. Однако в долгосрочной перспективе разработчики планируют расширить набор доступных домейнов.

RWRL позволяет пользователю комбинировать ограничения или выбрать из заданного списка бенчмарков через добавление дополнительных аргументов к функции загрузки.

Челленджи в RWRL

RWRL предоставляет функционал для поддержки экспериментов для 8 из 9 проблем. Среди проблем — эффективность семлпа, системные задержки, пространства состояний и действий, ограничения, частичная видимость, инференс в реальном времени, несколько целевых функций и обучение на офлайн логах. В RWRL нет задачи объяснения алгоритма, потому что она поставлена абстрактно.

Задержки системы

Большинство реальных систем имеют задержки в считывании, приведении в действие или в выдаче награды.

Ограничения

Почти все системы имеют ограничения, которые накладываются на целевую функцию. RWRL включает в себя имплементации набора ограничений для каждой задачи с различной сложностью.