Разработчики из Google опубликовали описание end-to-end рекомендательной системы в YouTube. Система использует несколько целевых функций для ранжирования и учитывает личные предпочтения пользователя. Чтобы оптимизировать модель на несколько целевых функций разработчики использовали Multi-gate Mixture-of-Experts. По результатам экспериментов на реальных пользователях, обновленная модель работает лучше предыдущих версий.
В своей работе исследователи представили крупномасштабную систему для ранжирования видео. Чтобы оптимизировать сразу несколько целевых функций, используется архитектура Multi-gate Mixture-of-Experts. Чтобы избавиться от смещения позиций при ранжировании, исследователи применяют Wide & Deep архитектуру модели.
При дизайне и реализации рекомендательной системы есть ряд проблем:
- Целевые метрики, которые нужно оптимизировать, могут не совпадать и конфликтовать друг с другом;
- В пользовательских просмотрах заложено смещение. Например, пользователь смотрит первое рекомендованное видео не потому что это то, что он больше всего хочет посмотреть, а потому что оно первое в списке. Это смещение необходимо обходить, чтобы не создавать эффект feedback loop
Что внутри модели
Модель использует логи пользователей как обучающую выборку. Затем строит Multi-gate Mixture of-Experts слои, чтобы предсказать две категории пользовательского поведения (лайки или комментарии). Ранжирование корректируется с помощью дополнительного блока модели, чтобы избавиться от смещения в предсказаниях. В конце несколько предсказаний объединяются в одно.
Можно рассматривать рекомендательную систему как расширенную версию Wide & Deep. Из расширений — добавляют модель (shallow tower) для смягчения смещений в ранжированном списке. Эта модель берет на вход порядок ранжирования, который предсказала основная модель, и выдает скаляр с bias термом для финального предсказания. Такая архитектура модели позволяет моделировать и оценивать смещение в данных без проведения дополнительных экспериментов.
Оценка качества модели
Чтобы оценить предложенный подход исследователи провели эксперименты с реальными пользователями. Части модели, которые проверялись, включают в себя обучения на нескольких целевых функциях и избавление от смещения в данных. В сравнении с state-of-the-art стандартными моделями нейросеть выдает более предпочитаемые рекомендации. Ниже видно показатели удовлетворенности, вовлечения и CTR.