FlyingSquid: библиотека для автоматической разметки данных

FlyingSquid — это фреймворк для автоматической разметки данных из множества шумных источников разметки. Пользователи пишут простые функции, которые генерируют шумные лейблы для данных. FlyingSquid использует пересечения и разногласия между ними, чтобы обучить вероятностную модель разметки, которая определяет, насколько верны функции. Модель разметки можно использовать напрямую для downstream задач или для обучения нейросети. 


neurohive telegram
Схема использования библиотеки

Weak supervision — это метод разметки данных на основе множества простых эвристик. Существующие фреймворки для weak supervision имеют два этапа: 

  • Сначала необходимо обработать все неразмеченные данные, чтобы выучить точности для источников разметки и сгенерировать лейблы;
  • Затем обучается конечная модель, которая решает необходимую задачу

Одна из наиболее сложных подзадач — получить лейблы из разных источников. Задача FlyingSquid заключается в том, что бы сократить время, которое пользователь тратит на процесс перехода от разметки к работающей модели. Ключевое отличие FlyingSquid в том, что вместо использования SGD для обучения вероятностной модели разметки исследователи применяют выражения замкнутой формы.

Применение фреймворка для анализа видео

Исследователи сравнили FlyingSquid со Snorkel на ряде задач анализа видео: от распознавания рекламы в новостях до анализа спортивных трансляций. FlyingSquid в 4,000 раза быстрее, чем предыдущий фреймворк для автоматической слабой разметки. При этом результаты сравимы или превышают прошлый подход.

Результаты сравнения FlyingSquid и Snorkel на задачах анализа видео
Подписаться
Уведомить о
guest


0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt