FlyingSquid — это фреймворк для автоматической разметки данных из множества шумных источников разметки. Пользователи пишут простые функции, которые генерируют шумные лейблы для данных. FlyingSquid использует пересечения и разногласия между ними, чтобы обучить вероятностную модель разметки, которая определяет, насколько верны функции. Модель разметки можно использовать напрямую для downstream задач или для обучения нейросети.
Weak supervision — это метод разметки данных на основе множества простых эвристик. Существующие фреймворки для weak supervision имеют два этапа:
- Сначала необходимо обработать все неразмеченные данные, чтобы выучить точности для источников разметки и сгенерировать лейблы;
- Затем обучается конечная модель, которая решает необходимую задачу
Одна из наиболее сложных подзадач — получить лейблы из разных источников. Задача FlyingSquid заключается в том, что бы сократить время, которое пользователь тратит на процесс перехода от разметки к работающей модели. Ключевое отличие FlyingSquid в том, что вместо использования SGD для обучения вероятностной модели разметки исследователи применяют выражения замкнутой формы.
Применение фреймворка для анализа видео
Исследователи сравнили FlyingSquid со Snorkel на ряде задач анализа видео: от распознавания рекламы в новостях до анализа спортивных трансляций. FlyingSquid в 4,000 раза быстрее, чем предыдущий фреймворк для автоматической слабой разметки. При этом результаты сравимы или превышают прошлый подход.