Датасеты для отслеживания объектов на видео

16 ноября 2018

Датасеты для отслеживания объектов на видео

Глубокое обучение лежит в основе работы современных трекеров объектов в видеопотоке. Однако до сих пор существует недостаток больших датасетов для обучения алгоритмов отслеживания. Известные наборы данных (например, VOT и OTB) относительно…

Глубокое обучение лежит в основе работы современных трекеров объектов в видеопотоке. Однако до сих пор существует недостаток больших датасетов для обучения алгоритмов отслеживания. Известные наборы данных (например, VOT и OTB) относительно малы и не в полной мере отражают проблемы реальных задач трекинга.

В этой статье мы представим три недавно разработанных датасета для отслеживания объектов на видео. Они отличаются по размеру, типу меток и другим характеристикам. TrackingNet — первый крупный датасет для трекинга объектов в естественной среде. MOT17 — бенчмарк для трекинга нескольких объектов. Need for Speed — первый датасет видео с высокой частотой кадров.

TrackingNet

Количество видео: 30,132 (для обучения) + 511 (тестовых)

Количество аннотаций: 14 205 677 (для обучения) + 225 589 (тестовых)

Год выпуска: 2018

Примеры из датасета TrackingNet

TrackingNet — первый крупный датасет для трекинга объектов в естественной среде. Он включает в себя более 30 тыс. видеороликов со средней длительностью 16.6 секунд и более 14 миллионов меток глубины. Датасет не ограничивается конкретной задачей, а охватывает широкий набор классов объектов.

Преимущества TrackingNet:

  • размер этого датасета позволяет разрабатывать сети глубокого обучения специально для задач трекинга;
  • будучи специально созданным для отслеживания объектов, датасет позволяет сетям фокусироваться на временной взаимосвязи между последовательными кадрами;
  • датасет был собран из видео YouTube и, таким образом, предоставляет реальные сценарии и содержит большое количество кадров, различных разрешений видео, контекстов и классов объектов.

Набор для обучения TrackingNe составлен из YouTube-Bounding Boxes (YT-BB), большого датасета для трекинга объектов с 300 000 видео, на каждой секунде которых есть метка: прямоугольник-граница. Чтобы создать TrackingNet, исследователи отфильтровали 90% видео, выбрав видеоролики, которые: a) длиннее 15 секунд; б) имеют границы, отделяющие менее 50% кадра; в) содержат разумное количество движений между прямоугольниками-границами.

Чтобы увеличить плотность меток с 1 кадра в секунду в YT-BB, создатели TrackingNet полагаются на несколько современных трекеров. Они утверждают, что любой трекер является надежным на интервале 1 секунды. Таким образом, исследователи получили 30 132 видео с метками, используя среднее значение между прямым и обратным проходом, полученное с помощью трекера DCF. Кроме того, также доступен код для автоматической загрузки видео с YouTube и извлечения кадров с метками.

Сравнение датасетов для трекинга по количеству видео, средней длительности видео, и количеству меток-границ (указано размером круга)

Наконец, датасет TrackingNet был представлен с новым бенчмарком, состоящим из 511 недавно опубликованных видео на YouTube с лицензией Creative Commons и называющимся YT-CC. Эти видео имеют одинаковое с набором для обучения распределение классов объектов и помечены с помощью Amazon Mechanical Turk. Благодаря контролю за работой AMT, команда TrackingNet обеспечила высокое качество меток после нескольких итераций, выставляя низкую оценку плохим аннотаторам и высокую — хорошим.

Таким образом, путем совмещения меток тестового набора и использования онлайн-сервера оценки, исследователи из TrackingNet обеспечили прекрасный задел для разработки трекеров объектов.

MOT17

Количество видео: 21 (для обучения) + 21 (тестовых)

Количество аннотаций: 564 228

Год выпуска: 2017

Примеры из датасета MOT17

MOT17 (Multiple Object Tracking) — это расширенная версия датасета MOT16 с новыми и более точными метками. Как видно из его названия, особое внимание в этом датасете уделяется отслеживанию нескольких объектов. Следует также отметить, что контекст датасетов MOT Challenge, включая последний представленный MOT17, ограничен трекингом объектов на городских улицах.

Новый бенчмарк MOT17 состоит из 42 последовательностей с несколькими людьми, углами обзора камеры и погодными условиями. Аннотирование последовательностей производилось квалифицированными исследователями с нуля по строгим протоколам.Чтобы обеспечить максимальную точность меток, все они были проверены дважды. Еще одна особенность, которая отличает этот датасет от ранних версий MOTChallenge, заключается в том, что в нем помечаются не только пешеходы, но и транспортные средства, сидячие люди, окклюзирующие объекты, а также другие значимые классы объектов.

Обзор аннотированных классов и пример аннотированного фрейма

Исследователи выбрали некоторые классы в качестве целевых — они выделены оранжевым на приведенном выше изображении; эти классы являются наиболее важными для оценки. Классы, помеченные красным, включают в себя неоднозначные случаи, при которых как наличие, так и отсутствие объектов не будет влиять на оценку. Наконец, классы зеленого цвета помечаются для целей обучения и для вычисления уровня окклюзии всех пешеходов.

Пример помеченного кадра демонстрирует, как помечаются частично обрезанные объекты. Также важно, что рамка-граница охватывает всего человека, а не только какую-либо его часть.

Большое количество меток, предоставляемое набором MOT17, может быть крайне полезно для разработки точных методов отслеживания.

NfS

Количество видео: 100

Количество меток: 383 000

Год выпуска: 2017

Эффект трекинга с более высокой частотой следования кадров

NfS (Need for Speed) — первый набор видеоданных с высокой частотой кадров и бенчмарк для отслеживания объектов. Он включает в себя 100 видео, состоящих из 380 000 кадров, захваченных 240 FPS-камерами, которые в последнее время часто используются в реальных задачах.

Для создания датасета было снято 75 видеороликов с использованием iPhone 6 (и более новых версий) и iPad Pro, и еще 25 видео были взяты с YouTube. Целями трекинга являются транспортные средства, люди, лица, животные, самолеты, лодки и другие объекты — мячи, чашки, сумки и т. д.

Кадры в датасете NfS помечаются с выровненными по осям границами с использованием панели инструментов VATIC. Кроме того, все видеоролики вручную помечены девятью визуальными атрибутами: окклюзия, изменение освещенности, изменение масштаба, деформация объекта, быстрое движение, изменение точки обзора, нахождение вне поля зрения, фоновая засветка и низкое разрешение.

Сравнение кадров с меньшей (зеленые рамки) и большей частотой следования (красные рамки). Истинные метки выделены синими рамками

Бенчмарк NfS предоставляет отличную возможность использовать современные трекеры при более высокой последовательности частоты кадров. Благодаря этому датасету уже были обнаружены некоторые неожиданные результаты: по-видимому, при более высокой частоте кадров простые трекеры, такие как корреляционные фильтры, превосходят сложные алгоритмы глубокого обучения.

Заключение

Недостаток больших датасетов для отслеживания объектов приводит к ситуации, когда трекеры объектов, основанные на алгоритмах глубокого обучения, вынуждены обучаться на датасетах для детектирования объектов. Это ограничение  влияет на качество решения задач отслеживания объектов. Недавно появившиеся датасеты, в особенности набор TrackingNet, обеспечат возможность создания более производительных трекеров.

«Танцуют все!» — невероятное качество Motion Transfer для видео

30 августа 2018
everybody dance now

«Танцуют все!» — невероятное качество Motion Transfer для видео

Плохо умеете танцевать? Больше не проблема! Удивите своих друзей ошеломляющим видео, где вы танцуете, как суперзвезда. Исследователи из Беркли предложили новый способ motion trasfer для видео. Они утверждают, что способны перенести исполнение…

Плохо умеете танцевать? Больше не проблема! Удивите своих друзей ошеломляющим видео, где вы танцуете, как суперзвезда. Исследователи из Беркли предложили новый способ motion trasfer для видео. Они утверждают, что способны перенести исполнение танца с исходного видео на целевое всего за несколько минут.

Предыдущие работы

За последние два десятилетия motion transfer (трансфер или ретаргетинг движений) привлек значительное внимание со стороны исследователей. Ранние подходы заключались в создании нового видеоматериала путем манипулирования существующими.

Так какая же идея лежит за новым подходом?

State-of-the-art идея

Исследователи из Беркли поставили перед собой задачу покадрового преобразования изображений с пространственно-временным сглаживанием. Обнаружение позы представленно палочным скелетом, как промежуточное представление между источником и целью. Supervised обучение происходит на основе переноса движений со скелета на целевого персонажа.

Два дополнительных компонента улучшают результаты:

  • условное предсказание в каждом кадре в сравнении с предыдущим шагом для временной гладкости;
  • специализированной GAN для реалистичного синтеза лица.

Прежде чем погрузиться в архитектуру предлагаемого подхода, давайте проверим результаты с помощью этого короткого видео:

По существу, модель обучается производству персонализированных видеороликов для определенного целевого объекта. Трансфер движения происходит, когда на скелет из обученной модели «надевают» оболочку цели, чтобы получить аналогичную оригиналу позу.

Метод

Предлагаемый метод состоит из 3 частей:

  1. Обнаружение позы — с использованием предобученного современного детектора позы для скелета из исходного видео.
  2. Глобальная нормализация позы — учет различий между источником и целевыми объектами в фигурах и местоположении в кадре.
  3. Сопоставление нормализованных скелетов и целевого объекта.

Ниже приведен обзор метода:

Обзор метода motion transfer
Обзор метода

Для обучения модель использует детектор позы P для создания скелета из видеокадров целевого объекта. Тогда отображение G обучается вместе с состязательным дискриминатором D, который пытается отличить «реальную» пару соответствий (x, y) и «поддельную» пару (G (x), y).

Далее, для передачи, детектор позы P помогает получить стыковые суставы для источника. Затем они преобразуются с нормализацией процесса Norm в суставы для цели, для которой создается скелет. Наконец, применяется обученное отображение G.

Исследователи основывают свой метод на задаче, представленной в pix2pixHD, с некоторыми расширениями для создания временной согласованности видеокадров и генерации реалистичных изображений лица.

Временное сглаживание

Чтобы создать видеоряд, они модифицируют генерацию одного изображения, чтобы обеспечить временную согласованность между соседними кадрами, как показано на рисунке ниже:

Настройка временного сглаживания
Настройка временного сглаживания

Проще говоря, текущий кадр G (xt) обусловлен его соответствующим скелетом xt и ранее синтезированным кадром G (xt-1) для получения гладкой картинки на выходе. Дискриминатор D затем пытается дифференцировать «реальную» временную согласованность последовательность (xt-1, xt, yt-1, yt) из «поддельной» последовательности (xt-1, xt, G (xt-1), G (xt) ).

Настройка FaceGAN

Исследователи дополнительно расширяют модель с помощью специальной настройки GAN, предназначенной для добавления деталей и реализма лица, как показано на рисунке ниже. А точнее, модель использует один дискриминатор 70 × 70 Patch-GAN для дискриминатора лица.

Face GAN setup

Теперь перейдем к результатам экспериментов …

Результаты

Целевые объекты записывались в течение 20 минут в режиме реального времени со скоростью 120 кадров в секунду. Кроме того, учитывая, что сеть не кодирует информацию об одежде, целевые танцоры носят туго натянутую одежду с минимальным складками.

Видео с источниками было найдено онлайн — это видео высокого качества, на которых исполняется танец.

Ниже приведены результаты, где верхняя строка показывает объект-источник, средняя показывает нормализованные скелеты, а нижняя отображает выходные данные модели:

Трансфер для 5 последовательных кадров
Трансфер для 5 последовательных кадров

В приведенных ниже таблицах показаны результаты полной модели (с временным сглаживанием и настройками FaceGAN) по сравнению с базовой моделью (pix2pixHD) и базовой моделью с настройкой временного сглаживания. Качество отдельных кадров оценивалось с помощью измерения Structural Similarity (SSIM) и Learned Perceptual Image Patch Similarity (LPIPS).

table 01

Сравнение результатов синтеза для <span class=
разных моделей (T.S .: модель с временным сглаживанием, T.S. + Face: полная модель с настройкой временного сглаживания и FaceGAN)»> Сравнение результатов синтеза для разных моделей (T.S .: модель с временным сглаживанием, T.S. + Face: полная модель с настройкой временного сглаживания и FaceGAN)

Чтобы дополнительно проанализировать качество результатов, исследователи запускают детектор позы P на выходах каждой модели и сравнивают полученные ключевые точки с позой исходного видео. Если все части тела синтезированы правильно, то реконструированная поза должна быть похожа на исходную позу. См. Результаты в таблицах ниже:

table 1

Как видно из таблиц, временная сглаживающая настройка, похоже, не добавляет значительных результатов в baseline, если смотреть только на количественные результаты. Однако временная сглаживающая настройка помогает с плавными движениями, согласованностью цветов по кадрам, а также в индивидуальном синтезе кадров.

С другой стороны, настройка FaceGAN улучшает как количественные, так и качественные результаты модели. Как видно из приведенных ниже рисунков, этот компонент добавляет значительную детализацию к выходному видео и обеспечивает реалистичную генерацию частей тела.

Сравнение изображений лиц, полученных различными моделями, в наборе валидации
Сравнение изображений лиц, полученных различными моделями, в наборе валидации

Вывод

Представленная модель способна создавать реалистичные и достаточно длинные видеоролики человека, осуществляющего танцевальные движения, которые есть на видео-источнике. Однако результаты по-прежнему часто страдают от дрожания. Это особенно характерно, когда перемещение или скорость перемещения отличаются от движений, наблюдаемых во время обучения.

Учитывая, что дрожь остается, даже если человек пытается скопировать движения объекта-источника на тренировочных данных, исследователи полагают, что дрожание может также возникнуть из-за разницы между тем, как движутся исходный и целевой объекты с учетом их уникальных структур тела. Тем не менее, этот подход к трансферу движения уже способен генерировать привлекательные видеоролики на разных данных.

Может быть интересно:

Туториал Nvidia для разработчиков: оптимизация RNN с помощью TensorRT

22 августа 2018
tensorrt tutorial

Туториал Nvidia для разработчиков: оптимизация RNN с помощью TensorRT

Видео демонстрирует, как настроить простую рекуррентную нейронную сеть (RNN) на основе языковой модели на уровне символов. Хотя этот образец построен с использованием C ++, вы можете реализовать его на Python…

Видео демонстрирует, как настроить простую рекуррентную нейронную сеть (RNN) на основе языковой модели на уровне символов. Хотя этот образец построен с использованием C ++, вы можете реализовать его на Python с помощью TensorRT Python API.

При помощи NVIDIA TensorRT вы можете быстро оптимизировать и развертывать натренированные нейронные сети для проведения инференса. TensorRT обеспечивает повышение производительности инференса до 40 раз при задержках менее 7 миллисекунд по сравнению с системами на базе CPU.

Видео: как писать научные статьи на тему Computer vision

15 августа 2018
как писать статьи computer vision

Видео: как писать научные статьи на тему Computer vision

Рассказывает Виктор Лемпицки из Оксфордского университета: какие пункты обязательны в статье на тему Computer Vision, на что обращают внимание рецензенты при оценке статьи, и что нужно сделать, чтобы повысить шансы…

Рассказывает Виктор Лемпицки из Оксфордского университета: какие пункты обязательны в статье на тему Computer Vision, на что обращают внимание рецензенты при оценке статьи, и что нужно сделать, чтобы повысить шансы статьи быть утвержденной для участия в конференции.

ReCoNet: быстрый, точный и когерентный по времени перенос стиля на видео

2 августа 2018
Качественное сравнение с другими методами стилизации

ReCoNet: быстрый, точный и когерентный по времени перенос стиля на видео

По всему миру разработчики используют сверточные нейронные сети для переноса стилистики одного изображения на другое или просто модификации изображения. Когда существующие методы достигли высокой скорости обработки, исследователей и разработчиков заинтересовало…

По всему миру разработчики используют сверточные нейронные сети для переноса стилистики одного изображения на другое или просто модификации изображения. Когда существующие методы достигли высокой скорости обработки, исследователей и разработчиков заинтересовало преобразование видео. Тем не менее, модели стилизации картинок обычно плохо работают для видеороликов из-за высокой временной несогласованности (некогерентности): визуально это наблюдается как “мерцание” между последовательными преобразованными кадрами и несовпадение текстур и узоров движущихся объектов. Некоторым моделям удалось улучшить временную согласованность, но они не могут наряду с этим гарантировать высокую скорость обработки и хорошее качество восприятия.

Для решения этой сложной задачи недавно была представлен ​​новый метод стилизации видео в режиме реального времени — ReCoNet. Авторы утверждают, что способ позволяет генерировать плавные ролики, сохраняя при этом благоприятную для восприятия картинку. Более того, по сравнению с другими существующими методами ReCoNet демонстрирует выдающуюся качественную и количественную производительность. Давайте узнаем, как авторам модели удалось достичь всего этого одновременно.

Предлагаемый подход

Группа исследователей из Университета Гонконга предложила real-time coherent video style transfer network (ReCoNet) в качестве современного подхода к стилизации видео. Это нейронная сеть прямого распространения, позволяющая выполнять обработку в режиме real-time. Видеофайл преобразовывается кадр за кадром через энкодер/декодер. Сеть потерь VGG отвечает за учет качества восприятия стиля.

Новизна их подхода заключается в введении штрафов за искажение яркости в временны́х потерях (temporal loss) выходного уровня. Он позволяет фиксировать изменения яркости прослеживаемых пикселей во входном видео и повышает стабильность стилизации в областях с эффектами освещения. В целом, это ограничение является ключевым в подавлении некогерентности. Однако также предлагается ввести временну́ю потерю на уровне объектов, которая штрафует за изменения высокоуровневых признаков одного и того же объекта в последовательных кадрах, тем самым повышая согласованность на прослеживаемых объектах.

Архитектура сети

Рассмотрим технические детали предлагаемого подхода и более внимательно изучим архитектуру сети (представлена на рисунке 2).

Преобразование данных в ReCoNet
Рисунок 2. Преобразование данных в ReCoNet

ReCoNet состоит из трех модулей:

  1. Энкодер преобразует кадры входного изображения в карты признаков с извлеченной информацией о восприятии (perceptual information). Энкодер содержит три сверточных слоя и четыре остаточных блока (residual blocks).
  2. Декодер генерирует стилизованные изображения по картам признаков. Чтобы уменьшить артефакты вида “шахматная доска”, декодер включает в себя два сверточных слоя сэмплирования (up-sampling, он же unpooling) с последним сверточным слоем (вместо одного традиционного деконволюционного слоя).
  3. Сеть потерь VGG-16 вычисляет ошибки восприятия. Предварительно обучена на датасете ImageNet.

таблица 1

Кроме того, на выходах с энкодера и декодера вычисляется и суммируется многоуровневая временная ошибка для уменьшения некогерентности.

На этапе обучения применяется синергический механизм обучения, использующий два кадра (синергический эффект возрастание эффективности деятельности в результате соединения, интеграции, слияния отдельных частей в единую систему за счет так называемого системного эффекта, прим.). Это означает, что для каждой итерации сеть в два прогона генерирует карты признаков и преобразованный вывод для двух последовательных кадров. Обратите внимание, что на этапе тестирования сетью обрабатывается только один кадр ролика за один проход. Тем не менее, в процессе обучения временные потери вычисляются с использованием карт признаков и стилизованного вывода обоих кадров, а потери восприятия вычисляются на каждом кадре независимо и суммируются. Конечная функция потерь для двухкадрового обучения:

Функция потери
Функция потери

где α, 𝛽, 𝛾, 𝜆𝑓  и 𝜆𝜊 — это гиперпараметры при обучении.

Результаты, полученные с помощью ReCoNet

На рисунке 3 показано, как предлагаемый метод передает четыре разных стиля на трех последовательных видеокадрах. Как можно заметить, ReCoNet успешно воспроизводит цвет, штрихи и текстуры базового стиля и создает визуально согласованные видеокадры.

результаты

Результаты изменения стиля видео с использованием ReCoNet
Рисунок 3. Результаты изменения стиля видео с использованием ReCoNet

Затем исследователи провели количественное сравнение эффективности ReCoNet с тремя другими методами. В приведенной ниже таблице показаны временные ошибки четырех моделей преобразования видео в пяти разных сценах. Модель Ruder et al демонстрирует самые маленькие ошибки, но значения FPS не позволяют использовать ее в режиме real-time из-за малой скорости вывода. У модели Huang et al более низкие временные ошибки, чем у ReCoNet; но сможет ли эта модель захватить штрихи и мелкие текстуры аналогично ReCoNet? Обратимся к качественному анализу.

таблица 2

Как видно из верхней строки на рисунке 4, модель Huang et al плохо справляется с штрихами и узорами. Это может быть связано с тем, что она использует малое отношение веса между потерями восприятия и временными потерями для поддержания когерентности. Кроме того, модель использует карты признаков из более глубокого слоя relu4_2 в loss-сети для вычисления потери содержимого, что затрудняет обработку низкоуровневых признаков, таких как границы.

Качественное сравнение с другими методами стилизации
Рисунок 4. Качественное сравнение с другими методами стилизации

Нижняя строка на рисунке 4 показывает, что результаты работы Chen et al хорошо воспринимаются и по содержимому, и по стилю. Тем не менее, при увеличении некоторых областей можно обнаружить заметную некогерентность, что подтверждается более высокими временными ошибками.

таблица 3

Интересно, что авторы также сравнили модели, изучая отзывы пользователей. Для каждого из двух сравнений к 4 различным видеоклипам применялись 4 разных стиля. Для опроса были приглашены 50 человек, им предлагалось ответить на следующие вопросы:

  • (Q1) Какая модель передает стиль лучше, особенно цвет, штрихи, текстуры и другие визуальные шаблоны?
  • (Q2) Какая модель лучше согласована по времени (т. е. где меньше мерцающих артефактов и цвет и стиль одного и того же объекта более стабилен)?
  • (Q3) Какая модель предпочтительнее в целом?

Результаты этого исследования, как показано в таблице 3, подтверждают выводы, сделанные из качественного анализа: ReCoNet достигает гораздо лучшей когерентности, чем модель Chen et al, сохраняя при этом одинаково хорошее восприятие стилей; модель Huang et al превосходит ReCoNet, когда дело доходит до временной согласованности, но визуально воспринимается результат гораздо хуже.

Итоги

Этот новый подход к переносу стиля на видео отлично подходит для создания согласованных стилизованных видеороликов в режиме обработки real-time, генерируя при этом действительно приятную для восприятия картинку. Авторы предложили использовать ограничение искажения яркости в временных потерях на уровне выходных данных и временную потерю уровня карты признаков для повышения стабильности при различных эффектах освещения, а также для лучшей временной согласованности. Когда речь заходит про когерентность, то ReCoNet оказывается среди новейших методов. Учитывая высокую скорость обработки и выдающиеся результаты в захвате информации о содержимом и стилистике, этот подход, безусловно, находится на “передовой” в стилистической обработке видео.

Перевод — Эдуард Поконечный

Сегментация объектов на видео в реальном времени с помощью Pixel-Wise обучения

12 июня 2018
Blazingly Fast Video Object Segmentation with Pixel-Wise Metric Learning

Сегментация объектов на видео в реальном времени с помощью Pixel-Wise обучения

Видео остается одним из самых информационно емких источников данных, но при этом одним из самых дорогих в обработке. Для разработчиков любых приложений важна скорость, глубина и точность обработки данных. Задача выделения…

Видео остается одним из самых информационно емких источников данных, но при этом одним из самых дорогих в обработке. Для разработчиков любых приложений важна скорость, глубина и точность обработки данных. Задача выделения объектов на видео сейчас не может быть решена с удовлетворительным качеством и приемлемой скоростью.

Новый метод

Исследователи из технологического университета Цюриха решили построить интуитивно понятную, но в то же время неизученную модель. Задача формулируется как попиксельный (pixel-wise) поиск в пространстве эмбеддинга. В идеальном случае пиксели, принадлежащие одному и тому же объекту, должны быть расположены близко друг к другу в векторном пространстве эмбеддинга, а принадлежащие разным — далеко. Модель, построенная с помощью обучения полной сверточной сети (Fully Convolutional Network, FCN) как модель для эмбеддинга, использует модифицированный triplet loss, заточенный для выделения объектов на видео, где не видно четкого соответствия пикселей друг другу.

У такой постановки задачи есть свои преимущества. Во-первых, предложенный метод крайне эффективен, поскольку нет тонкой настройки в тестовом режиме, и он требует только однократного прямого прохода по нейросети эмбеддинга и поиска ближайшего соседа для обработки каждого кадра. Во-вторых, этот метод подстраивается под различные типы пользовательского ввода (например, кликанье по точкам, выделение рисованием, маски сегментации и т.д.) в виде единого фреймворка. Более того, процесс отображения в пространство эмбеддинга происходит независимо от ввода. Таким образом, вектора в эмбеддинге не нужно пересчитывать, когда меняются входные данные, что делает этот метод идеальным для интерактивных задач:

  • Интерактивная сегментация объектов на видео. Опирается на взаимодействие с пользователем для выделения интересующего объекта. Всего было предложено несколько техник для решения данной задачи.
  • Глубокое метрическое обучение: ключевая идея deep metric learning обычно состоит в преобразовании необработанных признаков сетью и сравнении полученных новых объектов в пространстве эмбеддинга. Обычно метрическое обучение применяется для выявления сходства между изображениями или их частями, и методы, основанные на pixel-wise метрике, ограничены в возможностях.

Архитектура

Проблема заключается в том, чтобы сформулировать сегментацию видеообъектов как задачу pixel-wise поиска, то есть для каждого пикселя на видео нужно найти самый похожий опорный пиксель в пространстве эмбеддинга и присвоить ему соответствующую метку. Метод содержит два этапа:

  1. Добавить каждый пиксель в d-мерное пространство, используя предлагаемую эмбеддинг сеть.
  2. Выполнить поиск в векторном пространстве для каждого пикселя и получить метку для каждого из них в соответствии с его ближайшим опорным пикселем.

Embedding Network

Пользовательский ввод для тонкой настройки модели

Первый способ — точно подстроить сеть для конкретных объектов, опираясь на пользовательский ввод. Например, техники OSVOS или MaskTrack для точной настройки сети в тестовом режиме основаны на пользовательском вводе. Во время обработки нового видео они требуют большого количества итераций тренировки для того, чтобы модель “приспособилась” к специфичному целевому объекту. Это может быть очень времязатратно (секунды на видеоряд), а потому непрактично для real-time приложений, особенно когда в рабочей цепочке присутствует человек.

Пользовательские данные на вход сети

Другой подход заключается в том, чтобы взаимодействие с пользователем подключить как дополнительный вход нейросети. При этом в тестовом режиме работы “пользовательского” обучения не происходит. Недостаток подхода в том, что сеть должна быть пересчитана, как только пользовательский ввод изменится. Это по-прежнему может занимать значительное время, особенно для видео, содержащего большое количество кадров.

В отличие от методов, приведенных выше, в предлагаемой работе пользовательский ввод не учитывается. Таким образом, прямой проход сети должен быть рассчитан только один раз. Единственным вычислением после ввода пользователем является поиск ближайшего соседа, который происходит быстро и позволяет моментально реагировать на действия пользователя.

Модель эмбеддинга: В предложенной модели f, где каждый пиксель xj,i представлен d-мерным вектором в пространстве эмбеддинга ej,i = f(xj,i). В идеальном случае, пиксели, принадлежащие одному объекту, должны находиться близко друг к другу в векторном пространстве. Модель представления построена на DeepLab, основанном на каркасе ResNet.

  1. Нейросеть предобучается для семантической сегментации на датасете COCO.
  2. Удаляется последний — классифицирующий — слой и заменяется новым сверточным слоем c d выходными каналами
  3. Затем следует тонкая настройка для обучения эмбеддинга для выделения объектов на видео.

Архитектура DEEP lab является базовым средством выделения признаков и двумя сверточными слоями в качестве начала эмбеддинга. Результирующая сеть является полностью сверточной, поэтому отображенный вектор всех пикселей в кадре может быть получен за один прямой проход по сети. Для изображения размера h × w пикселей выход представляет собой тензор [h / 8, w / 8, d], где d — размерность пространства отображения. Поскольку FCN развертывается как модель эмбеддинга, пространственная и временная информация не сохраняется из-за инвариантности операции свертки. Формально функцию отображения (эмбеддинга) можно представить как:

Embedding Model

где i и j относятся к i-му пикселю на j-ом кадре. Затем используется модифицированный triplet loss:

Modified Triplet

Предложенный метод был опробован на датасетах DAVIS 2016 и DAVIS 2017, оба в сценариях “с частичным привлечением учителя” и “интерактивный режим”. В контексте частично размеченной сегментации объектов на видео (Video Object Segmentation, VOS) была предоставлена полностью описанная маска для первого кадра входа.

Evaluation results on DAVIS 2016 validation set
Результаты запуска на валидации из DAVIS 2016

Результаты

Pixel-wise feature distribution
Иллюстрация распределения пиксельных признаков (pixel-wise features)

В работе представлен концептуально простой, но очень эффективный метод выделения объектов на видео. Задача представлена в виде пиксельного поиска в пространстве эмбеддинга, полученного с помощью модификации triplet loss, специально предназначенных для сегментации видеообъектов. При таком подходе вручную размеченные пиксели на видео (рисованием, сегментацией по первой маске, кликаньем и т.д.) являются эталонными образцами, а остальные пиксели классифицируются с помощью простого и быстрого метода поиска ближайшего соседа. Скорость вычислений превосходит существующие методы и позволяет моментально реагировать на действия пользователя.

Video object segmentationПеревод — Эдуард Поконечный, оригинал — Muneeb Ul Hassan

Нейросеть вырезает GIF-ку из случайного видео с учетом предпочтений пользователя

10 мая 2018
Automatic Creation of Personalized GIFs22

Нейросеть вырезает GIF-ку из случайного видео с учетом предпочтений пользователя

Предположим, вы посмотрели 10-минутное видео, но вас заинтересовала только маленькая часть. Если вы захотите сделать 5-секундную GIF из этого видео, то обработка окажется непростой задачей. Можно ли создать алгоритм для автоматического…

Предположим, вы посмотрели 10-минутное видео, но вас заинтересовала только маленькая часть. Если вы захотите сделать 5-секундную GIF из этого видео, то обработка окажется непростой задачей. Можно ли создать алгоритм для автоматического создания GIF из видео с учетом пользовательских предпочтений? Мы расскажем о новом подходе к этой проблеме.

Модели обучаются находить “подсказки”, которые делают визуальный контент привлекательным или интересным для большинства людей. Однако интерес к сегменту видео субъективен. В результате такие модели выдают результат “для всех”, который не подходит конкретному пользователю. Другой подход предполагает обучать модель отдельно для каждого пользователя, но он неэффективен, так как требует большого объема личной информации, которая обычно недоступна.

Что предлагается?

Анна Гарсия дел Молино и Михаел Гугли, работая на gifs.com, предложили новую глобальную модель ранжирования, которая учитывает интересы конкретного пользователя. Вместо того, чтобы обучать модель для каждого пользователя, их модель персонализируется согласно входным данным, адаптируя предсказания с учетом нескольких примеров конкретного пользователя. Она построена на успехе глубоких моделей ранжирования, но делает результат персонализированным.

 

Automatic Creation of Personalized GIF

Другими словами, исследователи используют информации о GIFках, которые были созданы пользователем ранее. Они представляют его интересы и, следовательно, служат сильным индикатором для персонализации. Например, информации, что пользователь интересуется баскетболом, недостаточно. Один пользователь обрабатывает баскетбольные видео, чтобы выделить слэмы, а другого интересует только командные действия. А третий предпочитает моменты с поцелуями на камеру.

пример пользователя 1
Примеры пользователя, который постоянно выбирает GIFки футболистов. Его интересы отличаются от большинства пользователей, которые предпочитают моменты с голами.
пример пользователя 2
Примеры пользователя, который постонно выбирает GIFки смешных и милых питомцев.
пример пользователя 3
Примеры пользователя с GIFками категорий спорт, смешные животные и люди.

Для получения данных о GIFках, заранее созданных пользователем, исследователи направились на gifs.com и собрали широкомасштабную базу данных пользователей и GIFок, которые эти пользователи создали. Кроме того, они сделали эту базу доступной публично. Она состоит из 13,822 пользователей с 222,015 аннотациями к 119,938 видео.

Архитектура модели

Модель предсказывает оценку сегмента, основываясь и на самом сегменте и на выборке пользователя. При этом используется ранжирующий подход, в котором модель обучается оценивать позитивные сегменты видео выше, чем негативные. Предсказания строятся не столько на самом сегменте, сколько на истории раннее выбранных объектов.

Model Architecture

Исследователи предложили две модели, которые скомбинированы с последующим слиянием. Одна принимает на вход представление сегмента и суммарную историю (PHD-CA), а другая использует расстояния между сегментами и историей (SVM-D). Для модели с суммарной историей исследователи предложили использование нейронной сети прямого распространения (FNN). Это нейронная сеть с 2 скрытыми слоями с 512 и 64 нейронами. Что касается модели основанной на расстоянии, они создали вектор признаков, который содержит косинус расстояния до числа наиболее похожих элементов в истории. Далее эти две модели соединяются. Хотя модели различаются в диапазоне своих предсказаний и производительности, были использованы совместные веса для обеих моделей.

Прозводительность предложенных моделей сравнивалась с несколькими сильными базовыми подходами:

1) Video2GIF. Передовой подход в задачах автоматического выделений моментов для GIFок. Было проведено сравнение двух изначально натренированных моделей и модели с некоторыми изменениями, обученной на базе gifs.com, которая называется Video2GIF (авторская).

2) Highlight SVM. Модель ранжирующего метода опорных векторов (SVM), обученная на правильное ранжирование позитивных и негативных сегментов, с учетом только описания сегманта, игнорируя историю пользователя.

3) Video-MMR. В данной модели выше оцениваются схожие между собой сегменты. В частности, среднее значение косинусов сходства с элементами истории использовалось как оценка актуальности сегмента.

4) Residual Model. Исследователи переняли идею другой работы, где универсальная регрессионная модель использовалась вместе с моделью, которая настраивала прогнозы путем установки остаточной ошибки общей модели. Чтобы адаптировать эту идею к ранжированию, они обучали ранжирующий SVM, который получает предсказания от Video2GIF (авторского) в качестве входных данных, в совокупности с представлением сегмента.

5) Ranking SVM on the distances (SVM-D). Этот подход соответствует второй части предлагаемой модели (модели, основанной на расстоянии).

Показатели, использованные для количественного сравнения: mAP — усредненная средняя точность (mean average precision), nMSD — нормированный значимый результат продолжетельности (normalized Meaningful Summary Duration) и Recall@5 — отношение кадров от созданных пользователем GIFок(достоверных), которые включены в первые 5 наиболее оцененных GIFок.

Результаты

Таблица 1. Сравнение предложенного подхода (обозначается как Ours) с передовыми альтернативными методами сегментации видео на 5-секундные отрезки. Для mAP и R@5 чем выше результат, тем лучше метод. Для MSD чем меньше результат, тем лучше. Лучшие результаты в каждой категории выделены жирным шрифтом.

Personal and Non-personal Models
Таблица 2. Сравнение различных путей представления и суммирования истории, а также использования расстояния до истории для улучшения предсказаний.
Ways to represent and aggregate the history

Как вы можете видеть, предложенный метод значительно превосходит все базовые. Добавление информации об истории пользователя в выделительные модели (Ours(CA + SVM-D)) приводит к 5.2\%(+0.8\%) mAP, 4.3\%(-1.8\%) mMSD и 8\%(+2.3\%) Recall@5 относительно универсальной выделительной модели (Video2GIF(авторской)).

Video2GIF example 1
Пользователь, интересующийся лесами.
Video2GIF example 2
Пользователь, интересующийся нокаутами.
Video2GIF example 3
Пользователь, предпочитающий телевизионные шоу.

Количественное сравнение с передовыми методами (Video2GIF). Правильные результаты в зеленых рамках. (c) представляет случай сбоя, когда история пользователя вводит в заблуждение модель.

Подведем итоги

Представлена новая модель для персонализированного выделения моментов из видео. Отличительная черта этой модели состоит в том, что предсказания основаны на предшествующем опыте пользователя. Эксперименты демонстрируют, что пользователи редко изменяют привычкам при выборе контента, что позволяет модели превосходить универсальные выделительные методы, например, на 8% в Recall@5. Это значительное улучшение для такой высокоуровневой задачи.

Кроме того, представлена новая широкомасштабная база данных с информацией о выборе пользователей в прошлом, что полезно для дальнейших исследований в этой области.

Виктор Новосад