Большинство существующих исследований про нейросетевые рекомендательные системы фокусируются на деталях архитектуры моделей. При этом недостаточно внимания уделяется способам масштабирования моделей для их использования в реальных сервисах. Исследователи из FAIR опубликовали метрики для оценки работы моделей в продакшене, которые используются в Facebook.
Как это работает
Чтобы анализировать поведение рекомендательных систем на уровне продукта, исследователи определили метрики оценки нагрузки рекомендаций. Затем они разработали набор синтетических рекомендательных моделей, которые по-разному работают на инференсе. Модели тестировали на системах с Intel CPU. Результаты показывают те сложности, с которыми разработчики сталкиваются при балансировании между оптимизацией вычислительных ресурсов и оптимизацией самих моделей.
Одним из открытий было то, что три поколения серверов Intel, которые часто используются в дата-центрах: Broadwell, Haswell и Skylake, — имеют разную задержку при инференсе моделей. Skylake системы облегчают вычислительно сложные рекомендации. При этом они имеют меньшую задержку в сравнении с другими системами, когда на одной системе хранятся сразу несколько моделей.
Исследователи показали, что нейросетевые рекомендательные системы отличаются от традиционных нейросетей по нескольким параметрам:
- Высококачественные персонализированные рекомендации требуют больше ресурсов для хранения данных;
- Выдача рекомендаций в масштабе продукта не требует регулярных запросов к памяти;
- Разнообразие юзкейсов рекомендации производит набор сложностей с производительностью различных рекомендательных систем