Глубокое обучение лежит в основе работы современных трекеров объектов в видеопотоке. Однако до сих пор существует недостаток больших датасетов для обучения алгоритмов отслеживания. Известные наборы данных (например, VOT и OTB) относительно малы и не в полной мере отражают проблемы реальных задач трекинга.
В этой статье мы представим три недавно разработанных датасета для отслеживания объектов на видео. Они отличаются по размеру, типу меток и другим характеристикам. TrackingNet — первый крупный датасет для трекинга объектов в естественной среде. MOT17 — бенчмарк для трекинга нескольких объектов. Need for Speed — первый датасет видео с высокой частотой кадров.
TrackingNet
Количество видео: 30,132 (для обучения) + 511 (тестовых)
Количество аннотаций: 14 205 677 (для обучения) + 225 589 (тестовых)
Год выпуска: 2018
TrackingNet — первый крупный датасет для трекинга объектов в естественной среде. Он включает в себя более 30 тыс. видеороликов со средней длительностью 16.6 секунд и более 14 миллионов меток глубины. Датасет не ограничивается конкретной задачей, а охватывает широкий набор классов объектов.
Преимущества TrackingNet:
- размер этого датасета позволяет разрабатывать сети глубокого обучения специально для задач трекинга;
- будучи специально созданным для отслеживания объектов, датасет позволяет сетям фокусироваться на временной взаимосвязи между последовательными кадрами;
- датасет был собран из видео YouTube и, таким образом, предоставляет реальные сценарии и содержит большое количество кадров, различных разрешений видео, контекстов и классов объектов.
Набор для обучения TrackingNe составлен из YouTube-Bounding Boxes (YT-BB), большого датасета для трекинга объектов с 300 000 видео, на каждой секунде которых есть метка: прямоугольник-граница. Чтобы создать TrackingNet, исследователи отфильтровали 90% видео, выбрав видеоролики, которые: a) длиннее 15 секунд; б) имеют границы, отделяющие менее 50% кадра; в) содержат разумное количество движений между прямоугольниками-границами.
Чтобы увеличить плотность меток с 1 кадра в секунду в YT-BB, создатели TrackingNet полагаются на несколько современных трекеров. Они утверждают, что любой трекер является надежным на интервале 1 секунды. Таким образом, исследователи получили 30 132 видео с метками, используя среднее значение между прямым и обратным проходом, полученное с помощью трекера DCF. Кроме того, также доступен код для автоматической загрузки видео с YouTube и извлечения кадров с метками.
Наконец, датасет TrackingNet был представлен с новым бенчмарком, состоящим из 511 недавно опубликованных видео на YouTube с лицензией Creative Commons и называющимся YT-CC. Эти видео имеют одинаковое с набором для обучения распределение классов объектов и помечены с помощью Amazon Mechanical Turk. Благодаря контролю за работой AMT, команда TrackingNet обеспечила высокое качество меток после нескольких итераций, выставляя низкую оценку плохим аннотаторам и высокую — хорошим.
Таким образом, путем совмещения меток тестового набора и использования онлайн-сервера оценки, исследователи из TrackingNet обеспечили прекрасный задел для разработки трекеров объектов.
MOT17
Количество видео: 21 (для обучения) + 21 (тестовых)
Количество аннотаций: 564 228
Год выпуска: 2017
MOT17 (Multiple Object Tracking) — это расширенная версия датасета MOT16 с новыми и более точными метками. Как видно из его названия, особое внимание в этом датасете уделяется отслеживанию нескольких объектов. Следует также отметить, что контекст датасетов MOT Challenge, включая последний представленный MOT17, ограничен трекингом объектов на городских улицах.
Новый бенчмарк MOT17 состоит из 42 последовательностей с несколькими людьми, углами обзора камеры и погодными условиями. Аннотирование последовательностей производилось квалифицированными исследователями с нуля по строгим протоколам.Чтобы обеспечить максимальную точность меток, все они были проверены дважды. Еще одна особенность, которая отличает этот датасет от ранних версий MOTChallenge, заключается в том, что в нем помечаются не только пешеходы, но и транспортные средства, сидячие люди, окклюзирующие объекты, а также другие значимые классы объектов.
Исследователи выбрали некоторые классы в качестве целевых — они выделены оранжевым на приведенном выше изображении; эти классы являются наиболее важными для оценки. Классы, помеченные красным, включают в себя неоднозначные случаи, при которых как наличие, так и отсутствие объектов не будет влиять на оценку. Наконец, классы зеленого цвета помечаются для целей обучения и для вычисления уровня окклюзии всех пешеходов.
Пример помеченного кадра демонстрирует, как помечаются частично обрезанные объекты. Также важно, что рамка-граница охватывает всего человека, а не только какую-либо его часть.
Большое количество меток, предоставляемое набором MOT17, может быть крайне полезно для разработки точных методов отслеживания.
NfS
Количество видео: 100
Количество меток: 383 000
Год выпуска: 2017
NfS (Need for Speed) — первый набор видеоданных с высокой частотой кадров и бенчмарк для отслеживания объектов. Он включает в себя 100 видео, состоящих из 380 000 кадров, захваченных 240 FPS-камерами, которые в последнее время часто используются в реальных задачах.
Для создания датасета было снято 75 видеороликов с использованием iPhone 6 (и более новых версий) и iPad Pro, и еще 25 видео были взяты с YouTube. Целями трекинга являются транспортные средства, люди, лица, животные, самолеты, лодки и другие объекты — мячи, чашки, сумки и т. д.
Кадры в датасете NfS помечаются с выровненными по осям границами с использованием панели инструментов VATIC. Кроме того, все видеоролики вручную помечены девятью визуальными атрибутами: окклюзия, изменение освещенности, изменение масштаба, деформация объекта, быстрое движение, изменение точки обзора, нахождение вне поля зрения, фоновая засветка и низкое разрешение.
Бенчмарк NfS предоставляет отличную возможность использовать современные трекеры при более высокой последовательности частоты кадров. Благодаря этому датасету уже были обнаружены некоторые неожиданные результаты: по-видимому, при более высокой частоте кадров простые трекеры, такие как корреляционные фильтры, превосходят сложные алгоритмы глубокого обучения.
Заключение
Недостаток больших датасетов для отслеживания объектов приводит к ситуации, когда трекеры объектов, основанные на алгоритмах глубокого обучения, вынуждены обучаться на датасетах для детектирования объектов. Это ограничение влияет на качество решения задач отслеживания объектов. Недавно появившиеся датасеты, в особенности набор TrackingNet, обеспечат возможность создания более производительных трекеров.
Destroy city