В Оксфорде обучили self-supervised метод для сегментирования объектов на видео

Исследователи из Оксфорда представили нейросеть, которая по одному размеченному изображению распространяет разметку на всю видеозапись. На вход нейросети поступает размеченное изображение (часть видеозаписи), цель нейросети сохранить информацию о распознанных объектах на изображении. Этот подход можно использовать и для определения позы человека на видео. Нейросеть обходит state-of-the-art решения в сегментации видео среди self-supervised моделей.

Задачи, в которых можно использовать предложенный подход

Структура нейросети

Исследователи обучают нейросеть с помощью CNN на датасете Kinetics. Экстракция признаков из изображения производится с помощью вариации ResNet-18.

Детали структуры экстрактора признаков из изображения

Основной вклад исследователей делится на два пункта. Colour Dropout — подход, при котором из изображений во время обучения фильтруются по одному цветовые каналы. Это позволяет модели не реагировать на изменения распределения цветов на изображении и делает ее более устойчивой. Второй пункт — метод семплирования фреймов изображений для обучения. Исследователи обучали нейросеть на более длительных кусках видеозаписей и предложили scheduled sampling. Scheduled sampling подразумевает, что текущий фрейм не имеет доступ к реальным данным прошлых фреймов, вместо этого модель сохраняет информацию о прошлых предсказаниях.

Чтобы сократить объем памяти и ресурсов на обучение нейросети, исследователи использовали ограниченный механизм внимания (Restricted Attention).

Оценка работы нейросети

Для сравнения работы модели и state-of-the-art решений исследователи обучили self-supervised модели на датасете Kinetics и тестировали на DAVIS-2017. Среди self-supervised моделей предложенный подход превосходит конкурирующие архитектуры. Однако работает хуже, чем модели с учителем.

Сравнение методов сегментирования объектов на видео с учителем и без учителя

Ограничения модели

Среди ограничений модели исследователи выделили три:

Модель плохо справляется с случаями, когда объекты в видео часть видео были заслонены;
Когда объекты на видеозаписи выходят на какое-то время за рамки камеры;
Сложные трансформации объектов на видеозаписи модель не улавливает