Lexikon: внутренняя система рекомендации датасетов в Spotify

Lexikon — это внутренняя рекомендательная система датасетов в Spotify. Цель Lexikon заключается в том, чтобы облегчить поиск данных для сотрудников, которые занимаются анализом данных.

Мотивация для создания Lexikon

В 2016 Spotify расширили часть команды аналитиков. Повторная работа с данными была затруднена из-за отсутствия документации и централизованной базы у существующих внутренних датасетов. В 2017 появилась первая версия Lexikon. После запуска 75% дата-сайентистов компании использовали Lexikon регулярно. Число активных пользователей в месяц составляло около 550. Разработчики собрали отзывы по использованию платформы и выпустили обновление. В текущей версии базы есть два режима поиска данных: ненамеренный и намеренный. Кроме того, в платформе появилась возможность прислушиваться к мнению экспертов среди сотрудников при поиске данных.

Ненамеренный режим

При поиске данных аналитики могут не знать точное название датасета, который им необходим. Когда доступна информация о широком спектре задач, но нет четкого представления о типе данных, Lexikon позволяет искать данные по общим запросам. Например, аналитик хочет получить следующее:

  • Найти популярные датасеты, которые используются в компании;
  • Найти датасеты, которые релевантны тем задачам, которые решает его команда;
  • Узнать о новых датасетах, которые на данный момент аналитик не использует

Чтобы удовлетворить таким запросам, разработчики переделали главную страницу сервиса, чтобы выдавать пользователю персонализированные рекомендации. Главная страница предоставляет пользователям список потенциально релевантных наборов данных. Рекомендации генерируются с помощью эвристик: 

  • Популярные датасеты, которые используют в компании; 
  • Датасеты, которые аналитик недавно использовал;
  • Популярные среди членов команды датасеты, которые аналитик ранее не использовал

Поиск конкретного датасета

Дата-сайентист с определенной задачей знает, какие данные понадобятся для решения задачи. Для этого существует режим намеренного поиска. Обычно таким режимом пользуются опытные аналитики, которые ищут данные по определенным критериям. Запросы могут звучать, как:

  • Поиск датасета по названию;
  • Запрос на датасет с определенным полем в схеме;
  • Датасет на определенную тему;
  • Данные, которые использовали коллеги аналитика

Чтобы выдавать релевантные результаты, разработчики модифицировали алгоритм ранжирования результатов поиска. Датасеты ранжируются в зависимости от частоты их использования в компании. Наиболее популярные датасеты имеют более высокий вес, который учитывается при ранжировании результатов.

Кроме того, Lexikon позволяет искать по сотрудникам компании экспертов и смотреть их статистику использования датасетов.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt