RLax: библиотека на JAX для имплементации RL-агентов

deepmind maths challenge

RLax — это опенсорсная библиотека от DeepMind для имплементации RL-агентов. Библиотека базируется на JAX и содержит в себе блоки для разработки RL-агентов.

Подробнее про функционал

Операции и функции, которые предоставляет RLax, не являются полноценными алгоритмами. Это имплементации специальных математических операций, которые требуются для построения функционирующих RL-агентов. Доступные операции включают в себя:

  • Значения, для состояния и действия;
  • Значения для нелинейной генерализации уравнений Беллмана;
  • Функции значения распределений;
  • General Value Functions;
  • Политики, через policy-градиенты для непрерывных и дискретных пространств действий

Библиотека поддерживает on-policy и off-policy обучение (обучение на данных, которые были семплированы из политики другого агента).

Типы алгоритмов обучения с подкреплением

Существуют три типа алгоритмов обучения с подкреплением:

  • Те, что оценивают значения состояния и действий и подбирают политику на основе отбора самой высоко оцененной величины;
  • Те, что выучивают модель среды и подбирают политику через планирование;
  • Те, что параметризуют политику, которая может быть напрямую исполнена

Подробнее функционал и доступные материалы описаны в открытом репозитории на GitHub.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt