RLax — это опенсорсная библиотека от DeepMind для имплементации RL-агентов. Библиотека базируется на JAX и содержит в себе блоки для разработки RL-агентов.
Подробнее про функционал
Операции и функции, которые предоставляет RLax, не являются полноценными алгоритмами. Это имплементации специальных математических операций, которые требуются для построения функционирующих RL-агентов. Доступные операции включают в себя:
- Значения, для состояния и действия;
- Значения для нелинейной генерализации уравнений Беллмана;
- Функции значения распределений;
- General Value Functions;
- Политики, через policy-градиенты для непрерывных и дискретных пространств действий
Библиотека поддерживает on-policy и off-policy обучение (обучение на данных, которые были семплированы из политики другого агента).
Типы алгоритмов обучения с подкреплением
Существуют три типа алгоритмов обучения с подкреплением:
- Те, что оценивают значения состояния и действий и подбирают политику на основе отбора самой высоко оцененной величины;
- Те, что выучивают модель среды и подбирают политику через планирование;
- Те, что параметризуют политику, которая может быть напрямую исполнена
Подробнее функционал и доступные материалы описаны в открытом репозитории на GitHub.