fbpx
  • RecSys: симулятор рекомендательной системы от Google AI

    RecSys — это платформа для симуляции рекомендательной системы с возможностями конфигурации. Разработкой платформы занимались исследователи из Google AI.

    Успехи в машинном обучении, распознавании речи и обработке естественного языка трансформируют то, как рекомендательные системы взаимодействуют с пользователями. В результате появились коллаборативные интерактивные рекомендательные системы (CIRs). CIR — это рекомендательная система, которая последовательно взаимодействует с пользователем, чтобы посоветовать ему наиболее подходящий товар.

    Несмотря на это, запуск CIRs в продукты ограничен из-за сложностей в разработке алгоритмов, которые продуктивно взаимодействовали бы с пользователями. Обучение с подкреплением (RL) является стандартным подходом для предсказания последовательных действий. Исследователи решили применить RL к задаче рекомендации. Одна из сложностей в применении обучения с подкреплением к рекомендательным системам — отсутствие симуляций для случая с последовательными рекомендациями. Симуляции используются в обучении с подкреплением для обучения и оценки RL алгоритмов.

    Чтобы решить эту проблему, исследователи предлагают RecSim. RecSim — это контролируемая средя для обучения алгоритмов обучения с подкреплением. Система позволяет тестировать ограничения существующих RL методов на задаче рекомендации. Цель платформы — поддерживать симуляции, которые отражают специфику пользовательского поведения в рекомендательных системах. 

    Применение RL в рекомендательных системах

    В Большинстве исследований рекомендательных систем тестирование моделей происходит на статичных датасетах, которые не отражают последовательное повторяемое взаимодействие системы с пользователем. Это ограничивает тестирование RL методов. RecSys решает эту проблему. 

    Платформа симулирует взаимодействие агента, который рекомендует, со средой. На каждом шаге агент рекомендует список документов (товаров) пользователям. У агента есть доступ к существующим документам и характеристикам пользователей, чтобы выдать рекомендацию. Среда состоит из трех моделей:

    • Пользователя, которая отбирает пользователей из настраиваемого распределения пользовательских характеристик;
    • Документа, которая семплирует товары из распределения характеристик документов;
    • Выбора пользователя, которая моделирует реакцию пользователя на рекомендацию
    Схема обмена данными между частями симулятора