RecSys — это платформа для симуляции рекомендательной системы с возможностями конфигурации. Разработкой платформы занимались исследователи из Google AI.
Успехи в машинном обучении, распознавании речи и обработке естественного языка трансформируют то, как рекомендательные системы взаимодействуют с пользователями. В результате появились коллаборативные интерактивные рекомендательные системы (CIRs). CIR — это рекомендательная система, которая последовательно взаимодействует с пользователем, чтобы посоветовать ему наиболее подходящий товар.
Несмотря на это, запуск CIRs в продукты ограничен из-за сложностей в разработке алгоритмов, которые продуктивно взаимодействовали бы с пользователями. Обучение с подкреплением (RL) является стандартным подходом для предсказания последовательных действий. Исследователи решили применить RL к задаче рекомендации. Одна из сложностей в применении обучения с подкреплением к рекомендательным системам — отсутствие симуляций для случая с последовательными рекомендациями. Симуляции используются в обучении с подкреплением для обучения и оценки RL алгоритмов.
Чтобы решить эту проблему, исследователи предлагают RecSim. RecSim — это контролируемая средя для обучения алгоритмов обучения с подкреплением. Система позволяет тестировать ограничения существующих RL методов на задаче рекомендации. Цель платформы — поддерживать симуляции, которые отражают специфику пользовательского поведения в рекомендательных системах.
Применение RL в рекомендательных системах
В Большинстве исследований рекомендательных систем тестирование моделей происходит на статичных датасетах, которые не отражают последовательное повторяемое взаимодействие системы с пользователем. Это ограничивает тестирование RL методов. RecSys решает эту проблему.
Платформа симулирует взаимодействие агента, который рекомендует, со средой. На каждом шаге агент рекомендует список документов (товаров) пользователям. У агента есть доступ к существующим документам и характеристикам пользователей, чтобы выдать рекомендацию. Среда состоит из трех моделей:
- Пользователя, которая отбирает пользователей из настраиваемого распределения пользовательских характеристик;
- Документа, которая семплирует товары из распределения характеристик документов;
- Выбора пользователя, которая моделирует реакцию пользователя на рекомендацию