Как в FAIR оптимизируют нейросетевые рекомендательные системы

Большинство существующих исследований про нейросетевые рекомендательные системы фокусируются на деталях архитектуры моделей. При этом недостаточно внимания уделяется способам масштабирования моделей для их использования в реальных сервисах. Исследователи из FAIR опубликовали метрики для оценки работы моделей в продакшене.

Как это работает

Чтобы анализировать поведение рекомендательных систем на уровне продукта, исследователи определили метрики оценки нагрузки рекомендаций. Затем они разработали набор синтетических рекомендательных моделей, которые по-разному работают на инференсе. Модели тестировали на системах с Intel CPU. Результаты показывают те сложности, с которыми разработчики сталкиваются при балансировании между оптимизацией вычислительных ресурсов и оптимизацией самих моделей.

Одним из открытий было то, что три поколения серверов Intel, которые часто используются в дата-центрах: Broadwell, Haswell и Skylake, — имеют разную задержку при инференсе моделей. Skylake системы облегчают вычислительно сложные рекомендации. При этом они имеют меньшую задержку в сравнении с другими системами, когда на одной системе хранятся сразу несколько моделей.

Исследователи показали, что нейросетевые рекомендательные системы отличаются от традиционных нейросетей по нескольким параметрам:

Высококачественные персонализированные рекомендации требуют больше ресурсов для хранения данных;
Выдача рекомендаций в масштабе продукта не требует регулярных запросов к памяти;
Разнообразие юзкейсов рекомендации производит набор сложностей с производительностью различных рекомендательных систем