RecSys: симулятор рекомендательной системы от Google AI

RecSys — это платформа для симуляции рекомендательной системы с возможностями конфигурации. Разработкой платформы занимались исследователи из Google AI.

Успехи в машинном обучении, распознавании речи и обработке естественного языка трансформируют то, как рекомендательные системы взаимодействуют с пользователями. В результате появились коллаборативные интерактивные рекомендательные системы (CIRs). CIR — это рекомендательная система, которая последовательно взаимодействует с пользователем, чтобы посоветовать ему наиболее подходящий товар.

Несмотря на это, запуск CIRs в продукты ограничен из-за сложностей в разработке алгоритмов, которые продуктивно взаимодействовали бы с пользователями. Обучение с подкреплением (RL) является стандартным подходом для предсказания последовательных действий. Исследователи решили применить RL к задаче рекомендации. Одна из сложностей в применении обучения с подкреплением к рекомендательным системам — отсутствие симуляций для случая с последовательными рекомендациями. Симуляции используются в обучении с подкреплением для обучения и оценки RL алгоритмов.

Чтобы решить эту проблему, исследователи предлагают RecSim. RecSim — это контролируемая средя для обучения алгоритмов обучения с подкреплением. Система позволяет тестировать ограничения существующих RL методов на задаче рекомендации. Цель платформы — поддерживать симуляции, которые отражают специфику пользовательского поведения в рекомендательных системах. 

Применение RL в рекомендательных системах

В Большинстве исследований рекомендательных систем тестирование моделей происходит на статичных датасетах, которые не отражают последовательное повторяемое взаимодействие системы с пользователем. Это ограничивает тестирование RL методов. RecSys решает эту проблему. 

Платформа симулирует взаимодействие агента, который рекомендует, со средой. На каждом шаге агент рекомендует список документов (товаров) пользователям. У агента есть доступ к существующим документам и характеристикам пользователей, чтобы выдать рекомендацию. Среда состоит из трех моделей:

  • Пользователя, которая отбирает пользователей из настраиваемого распределения пользовательских характеристик;
  • Документа, которая семплирует товары из распределения характеристик документов;
  • Выбора пользователя, которая моделирует реакцию пользователя на рекомендацию
Схема обмена данными между частями симулятора
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt