FlyingSquid: библиотека для автоматической разметки данных

FlyingSquid — это фреймворк для автоматической разметки данных из множества шумных источников разметки. Пользователи пишут простые функции, которые генерируют шумные лейблы для данных. FlyingSquid использует пересечения и разногласия между ними, чтобы обучить вероятностную модель разметки, которая определяет, насколько верны функции. Модель разметки можно использовать напрямую для downstream задач или для обучения нейросети. 

Схема использования библиотеки

Weak supervision — это метод разметки данных на основе множества простых эвристик. Существующие фреймворки для weak supervision имеют два этапа: 

  • Сначала необходимо обработать все неразмеченные данные, чтобы выучить точности для источников разметки и сгенерировать лейблы;
  • Затем обучается конечная модель, которая решает необходимую задачу

Одна из наиболее сложных подзадач — получить лейблы из разных источников. Задача FlyingSquid заключается в том, что бы сократить время, которое пользователь тратит на процесс перехода от разметки к работающей модели. Ключевое отличие FlyingSquid в том, что вместо использования SGD для обучения вероятностной модели разметки исследователи применяют выражения замкнутой формы.

Применение фреймворка для анализа видео

Исследователи сравнили FlyingSquid со Snorkel на ряде задач анализа видео: от распознавания рекламы в новостях до анализа спортивных трансляций. FlyingSquid в 4,000 раза быстрее, чем предыдущий фреймворк для автоматической слабой разметки. При этом результаты сравимы или превышают прошлый подход.

Результаты сравнения FlyingSquid и Snorkel на задачах анализа видео
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt