Датасеты для отслеживания объектов на видео

16 ноября 2018

Датасеты для отслеживания объектов на видео

Глубокое обучение лежит в основе работы современных трекеров объектов в видеопотоке. Однако до сих пор существует недостаток больших датасетов для обучения алгоритмов отслеживания. Известные наборы данных (например, VOT и OTB) относительно…

Глубокое обучение лежит в основе работы современных трекеров объектов в видеопотоке. Однако до сих пор существует недостаток больших датасетов для обучения алгоритмов отслеживания. Известные наборы данных (например, VOT и OTB) относительно малы и не в полной мере отражают проблемы реальных задач трекинга.

В этой статье мы представим три недавно разработанных датасета для отслеживания объектов на видео. Они отличаются по размеру, типу меток и другим характеристикам. TrackingNet — первый крупный датасет для трекинга объектов в естественной среде. MOT17 — бенчмарк для трекинга нескольких объектов. Need for Speed — первый датасет видео с высокой частотой кадров.

TrackingNet

Количество видео: 30,132 (для обучения) + 511 (тестовых)

Количество аннотаций: 14 205 677 (для обучения) + 225 589 (тестовых)

Год выпуска: 2018

Примеры из датасета TrackingNet

TrackingNet — первый крупный датасет для трекинга объектов в естественной среде. Он включает в себя более 30 тыс. видеороликов со средней длительностью 16.6 секунд и более 14 миллионов меток глубины. Датасет не ограничивается конкретной задачей, а охватывает широкий набор классов объектов.

Преимущества TrackingNet:

  • размер этого датасета позволяет разрабатывать сети глубокого обучения специально для задач трекинга;
  • будучи специально созданным для отслеживания объектов, датасет позволяет сетям фокусироваться на временной взаимосвязи между последовательными кадрами;
  • датасет был собран из видео YouTube и, таким образом, предоставляет реальные сценарии и содержит большое количество кадров, различных разрешений видео, контекстов и классов объектов.

Набор для обучения TrackingNe составлен из YouTube-Bounding Boxes (YT-BB), большого датасета для трекинга объектов с 300 000 видео, на каждой секунде которых есть метка: прямоугольник-граница. Чтобы создать TrackingNet, исследователи отфильтровали 90% видео, выбрав видеоролики, которые: a) длиннее 15 секунд; б) имеют границы, отделяющие менее 50% кадра; в) содержат разумное количество движений между прямоугольниками-границами.

Чтобы увеличить плотность меток с 1 кадра в секунду в YT-BB, создатели TrackingNet полагаются на несколько современных трекеров. Они утверждают, что любой трекер является надежным на интервале 1 секунды. Таким образом, исследователи получили 30 132 видео с метками, используя среднее значение между прямым и обратным проходом, полученное с помощью трекера DCF. Кроме того, также доступен код для автоматической загрузки видео с YouTube и извлечения кадров с метками.

Сравнение датасетов для трекинга по количеству видео, средней длительности видео, и количеству меток-границ (указано размером круга)

Наконец, датасет TrackingNet был представлен с новым бенчмарком, состоящим из 511 недавно опубликованных видео на YouTube с лицензией Creative Commons и называющимся YT-CC. Эти видео имеют одинаковое с набором для обучения распределение классов объектов и помечены с помощью Amazon Mechanical Turk. Благодаря контролю за работой AMT, команда TrackingNet обеспечила высокое качество меток после нескольких итераций, выставляя низкую оценку плохим аннотаторам и высокую — хорошим.

Таким образом, путем совмещения меток тестового набора и использования онлайн-сервера оценки, исследователи из TrackingNet обеспечили прекрасный задел для разработки трекеров объектов.

MOT17

Количество видео: 21 (для обучения) + 21 (тестовых)

Количество аннотаций: 564 228

Год выпуска: 2017

Примеры из датасета MOT17

MOT17 (Multiple Object Tracking) — это расширенная версия датасета MOT16 с новыми и более точными метками. Как видно из его названия, особое внимание в этом датасете уделяется отслеживанию нескольких объектов. Следует также отметить, что контекст датасетов MOT Challenge, включая последний представленный MOT17, ограничен трекингом объектов на городских улицах.

Новый бенчмарк MOT17 состоит из 42 последовательностей с несколькими людьми, углами обзора камеры и погодными условиями. Аннотирование последовательностей производилось квалифицированными исследователями с нуля по строгим протоколам.Чтобы обеспечить максимальную точность меток, все они были проверены дважды. Еще одна особенность, которая отличает этот датасет от ранних версий MOTChallenge, заключается в том, что в нем помечаются не только пешеходы, но и транспортные средства, сидячие люди, окклюзирующие объекты, а также другие значимые классы объектов.

Обзор аннотированных классов и пример аннотированного фрейма

Исследователи выбрали некоторые классы в качестве целевых — они выделены оранжевым на приведенном выше изображении; эти классы являются наиболее важными для оценки. Классы, помеченные красным, включают в себя неоднозначные случаи, при которых как наличие, так и отсутствие объектов не будет влиять на оценку. Наконец, классы зеленого цвета помечаются для целей обучения и для вычисления уровня окклюзии всех пешеходов.

Пример помеченного кадра демонстрирует, как помечаются частично обрезанные объекты. Также важно, что рамка-граница охватывает всего человека, а не только какую-либо его часть.

Большое количество меток, предоставляемое набором MOT17, может быть крайне полезно для разработки точных методов отслеживания.

NfS

Количество видео: 100

Количество меток: 383 000

Год выпуска: 2017

Эффект трекинга с более высокой частотой следования кадров

NfS (Need for Speed) — первый набор видеоданных с высокой частотой кадров и бенчмарк для отслеживания объектов. Он включает в себя 100 видео, состоящих из 380 000 кадров, захваченных 240 FPS-камерами, которые в последнее время часто используются в реальных задачах.

Для создания датасета было снято 75 видеороликов с использованием iPhone 6 (и более новых версий) и iPad Pro, и еще 25 видео были взяты с YouTube. Целями трекинга являются транспортные средства, люди, лица, животные, самолеты, лодки и другие объекты — мячи, чашки, сумки и т. д.

Кадры в датасете NfS помечаются с выровненными по осям границами с использованием панели инструментов VATIC. Кроме того, все видеоролики вручную помечены девятью визуальными атрибутами: окклюзия, изменение освещенности, изменение масштаба, деформация объекта, быстрое движение, изменение точки обзора, нахождение вне поля зрения, фоновая засветка и низкое разрешение.

Сравнение кадров с меньшей (зеленые рамки) и большей частотой следования (красные рамки). Истинные метки выделены синими рамками

Бенчмарк NfS предоставляет отличную возможность использовать современные трекеры при более высокой последовательности частоты кадров. Благодаря этому датасету уже были обнаружены некоторые неожиданные результаты: по-видимому, при более высокой частоте кадров простые трекеры, такие как корреляционные фильтры, превосходят сложные алгоритмы глубокого обучения.

Заключение

Недостаток больших датасетов для отслеживания объектов приводит к ситуации, когда трекеры объектов, основанные на алгоритмах глубокого обучения, вынуждены обучаться на датасетах для детектирования объектов. Это ограничение  влияет на качество решения задач отслеживания объектов. Недавно появившиеся датасеты, в особенности набор TrackingNet, обеспечат возможность создания более производительных трекеров.

Новые датасеты для оценки позы в 3D

12 ноября 2018

Новые датасеты для оценки позы в 3D

Оценка позы в 3D — фундаментальная задача компьютерного зрения. Способность компьютера распознавать людей на изображениях и видео применяется в беспилотном вождении, распознавании действий, взаимодействии человека с компьютером, дополненной реальности и робототехнике. В…

Оценка позы в 3D — фундаментальная задача компьютерного зрения. Способность компьютера распознавать людей на изображениях и видео применяется в беспилотном вождении, распознавании действий, взаимодействии человека с компьютером, дополненной реальности и робототехнике.

В последние годы ученые добились прогресса в оценке позы в 2D. Важный фактор успеха — наличие больших размеченных датасетов поз человека, которые позволяют обучать сети распознавать позы в 2D. В то же время, успехи в оценке позы в 3D остаются ограниченными, поскольку сложно получить точную информацию о глубине, движении, сегментации частей тела и окклюзии.

В этой статье мы представляем три недавно созданных датасета, которые пытаются решить проблему нехватки аннотированных наборов данных для оценки позы в 3D.

DensePose

Количество изображений: 50 000

Количество меток: 5 000 000

Год выпуска: 2018

 

DensePose — это крупный датасет с метками соответствия изображение-поверхность, вручную помеченный на 50000 изображениях COCO. Датасет создан Facebook AI Research. Команда привлекла сотрудников, которые вручную задавали соответствие глубины на 2D изображениях и поверхностей, отвечающих телам людей, с помощью специально разработанного ПО для аннотирования.

Как показано ниже, на первом этапе сотрудники определяют области, соответствующие видимым, семантически определенным частям тела. На втором этапе каждая часть области разбивается на подобласти с помощью набора точек, и аннотаторы приводят эти точки в соответствие с поверхностью. Исследователи хотели избежать вращения поверхности вручную для этой цели и предоставили сотрудникам 6 изображений с разных точек зрения, чтобы позволить им ставить метки с любого ракурса.

Схема аннотирования

Ниже представлены визуализации аннотаций на изображениях из набора для проверки: изображения (слева), U (посередине) и V (справа) для собранных точек.

Визуализация аннотаций

DensePose — это первый собранный вручную истинный датасет для оценки позы по глубине.

SURREAL

Количество кадров: 6 500 000

Количество объектов: 145

Год выпуска: 2017

Создание реалистичных искусственных изображений

SURREAL (Synthetic hUmans foR REAL tasks) — это новый большой датасет с искусственными, но реалистичными изображениями людей, получаемыми из трехмерных последовательностей данных захвата человеческого движения. Он включает 6 миллионов кадров с аннотациями, такими как поза, карты глубины и маски сегментации.

Как описано в статье, изображения в SURREAL получаются из трехмерных последовательностей данных MoCap. Степень реалистичности искусственных изображений обычно ограничена. Чтобы обеспечить реалистичность человеческих тел в этом датасете, исследователи решили создать искусственные тела с использованием модели SMPL, параметры которой подбирались с помощью MoSh по необработанному массиву 3D-маркеров MoCap. Более того, авторы датасета SURREAL обеспечили большое разнообразие углов зрения, одежды и освещения.

Ниже приведена схема создания искусственной модели человеческого тела:

  • человек фотографируется для получения 3D модели тела;
  • происходит рендеринг кадра с использованием фонового изображения, карты текстуры тела, освещения и положения камеры;
  • все «ингредиенты» генерируются случайным образом для увеличения разнообразия данных;
  • сгенерированные RGB изображения сопровождаются 2D/3D позами, нормалями к поверхности, потоком света, картами глубины и картами сегментации частей тела.
Схема получения искусственных данных

Получившийся датасет содержит 145 объектов, >67.5 тыс видео и >6.5 млн кадров:

 

Несмотря на то, что SURREAL содержит искусственные изображения, исследователи, создавшие этот датасет, демонстрируют, что CNN-сети, прошедшие обучение в SURREAL, позволяют получать точную оценку карты глубины и сегментацию частей тела в реальных RGB изображениях. Как следствие, этот датасет предоставляет новые возможности для улучшения методов 3D-оценки позы с использованием большого количества искусственных данных.

UP-3D

Количество объектов: 5 569

Количество изображений: 5 569 изображений для обучения и 1208 тестовых изображений

Год выпуска: 2017

Снизу: сгенерированные модели 3D тела в различных датасетах, послужившие основой UP-3D. Сверху: улучшенные 3D-модели могут расширить исходный датасет

UP-3D — это датасет, который «объединяет людей» из различных датасетов для решения множества задач. В частности, используя недавно введенный метод SMPLify, исследователи получили высококачественную трехмерную модель тела человека. Аннотаторы вручную сортировали модели на хорошие и плохие.

Этот датасет объединяет два датасета LSP (11 000 изображений для обучения и 1000 тестовых изображений) и часть датасета MPII-HumanPose (13 030 изображений для обучения и 2622 тестовых изображения). Хотя можно было использовать метод автоматической сегментации для генерации силуэтов переднего плана, исследователи решили для надежности привлечь сотрудников для аннотирования. Ученые создали интерактивный инструмент аннотации поверх пакета Opensurfaces для работы с Amazon Mechanical Turk (AMT) и использовали интерактивных алгоритм Grabcut для получения изображений границ силуэтов.

Таким образом, задача аннотаторов состояла в том, чтобы определить силуэты на переднем плане и выполнить сегментацию 6 частей тела.

В то время как в среднем задача маркировки переднего плана занимает 108 сек в LSP и 168 сек в MPII, сегментация занимает вдвое больше времени: 236 с.

Аннотаторы сортировали модели на хорошие и плохие. Ниже приведен процент принятых моделей в каждом датасете:

 

Таким образом, принятые модели сформировали датасет UP-3D с 5569 изображениями для обучения и 1208 тестовыми изображениями. После экспериментов по семантической сегментации частей тела, оценке позы и 3D-подбору улучшенные 3D-модели расширили исходный набор данных.

Результаты работы различных методов, обученных на метках, созданных с помощью датасета UP-3D

Датасет устанавливает новую планку уровня детализации — 31 метка для семантической сегментации частей тела с высокой точностью и 91 метка для оценки человеческой позы. Кроме того, обучение с использованием 91 метки улучшает качество оценки трехмерной человеческой позы на двух популярных датасетах HumanEva и Human3.6M.

Заключение

Существуют разные подходы к построению набора данных для оценки трехмерной человеческой позы. Представленные в статье датасеты сосредоточены на различных аспектах распознавания людей на изображениях. Тем не менее, все они могут быть полезны для оценки позы человека в реальных приложениях.


Интересные статьи: 

Новые датасеты для распознавания объектов в 3D

8 ноября 2018

Новые датасеты для распознавания объектов в 3D

Робототехника, дополненная реальность, беспилотное вождение — все эти области основаны на распознавании 3D-свойств объектов по 2D-изображениям. Как следствие, трехмерное распознавание объектов стало одной из центральных задач компьютерного зрения. Заметный прогресс…

Робототехника, дополненная реальность, беспилотное вождение — все эти области основаны на распознавании 3D-свойств объектов по 2D-изображениям. Как следствие, трехмерное распознавание объектов стало одной из центральных задач компьютерного зрения.

Заметный прогресс в этой области был достигнут после создания нескольких датасетов с 3D-метками к двумерным объектам (например, IKEA, Pascal3D+). Однако эти датасеты имеют небольшие размеры и включают лишь около десятка категорий объектов.

Это крайне мало по сравнению с ImageNet или Microsoft COCO — огромными датасетами, которые помогли добиться значительного прогресса в задаче классификации изображений в последние годы. Крупные датасеты с трехмерными метками способны улучшить распознавание 3D-объектов.

В этой статье мы расскажем об одном большом датасете, ObjectNet3D, и нескольких специализированных датасетах для распознавания 3D-объектов: MVTec ITODD и T-LESS — для решения индустриальных задач, и Falling Things — для задач распознавания объектов в робототехнике.

ObjectNet3D

Количество изображений: 90 127

Количество объектов: 201 888

Количество категорий: 100

Количество 3D-фигур: 44 147

Год выпуска: 2016

Пример изображения из датасета ObjectNet3D с 2D-объектов и 3D-метками

ObjectNet3D — это большая база данных, в которой объекты на изображениях помечены трехмерными фигурами. Метки обеспечивают точное соответствие трехмерных фигур и двумерных объектов. Размеры датасета позволяют добиться прогресса в распознавании трехмерных поз и объектов по 2D-изображениям.

Результаты извлечения 3D формы. Зеленым выделены выбранные формы. В нижнем ряду представлены два случая, в которых похожая форма не найдена среди 5 приведенных выше форм

Чтобы составить этот датасет, исследователи из Стэнфордского университета использовали изображения из существующих репозиториев и предложили метод выравнивания трехмерных фигур (доступных из существующих репозиториев 3D-фигур) для объектов на этих изображениях.

В наборе рассмотрены только определенные категории объектов, для которых можно собрать большое количество трехмерных изображений из Интернета. Вот полный список категорий:

Категории объектов в датасете ObjectNet3D

2D-изображения были найдены в датасете ImageNet и через Google Image Search для категорий, которые недостаточно охвачены ImageNet. 3D-формы были получены из репозиториев Trimble 3D Warehouse и ShapeNet. Затем для объектов на изображениях были сформированы 3D-фигуры с использованием модели, которая подробно описана в соответствующей статье. Наконец, также всем двумерным изображениям присваивались 3D-метки.

Датасет подходит для определения и обнаружения 2D-объектов, совместного определения 2D-объекта и 3D-оценки позы, а также для извлечения 3D-изображений из двумерных.

MVTec ITODD

Количество сцен: 800

Количество объектов: 28

Количество 3D-преобразований: 3 500

Год выпуска: 2017

MVTec ITODD — это датасет для обнаружения 3D-объектов и оценки позы с упором на применение в промышленных целях. Он содержит 28 объектов, расположенных в более чем 800 сценах и помеченных жестко связанным с объектом 3D-преобразованием. Сцены были захвачены одновременно двумя промышленными 3D-датчиками и тремя черно-белыми камерами, что позволяет проводить оценку методов, работающих с 3D-объектами, изображениями или их комбинациями. Создатели датасета (MVTec Software GmbH) решили использовать черно-белые камеры, потому что они часто используются в промышленности.

Как упоминается в описании датасета, объекты были выбраны так, чтобы охватывать диапазон различных факторов: отражательную способность поверхности, симметрию, конструкцию, плоскостность, детализацию, компактность и размер. Вот изображения всех объектов, включенных в MVTec ITODD, вместе с их названиями:

Изображения 28 использованных в датасете объектов

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для каждого объекта доступны сцены с одним и несколькими объектами (например, для имитации bin picking). Каждая сцена была получена один раз с каждым из трехмерных датчиков и дважды с каждой из черно-белых камер: с и без искусственного добавления шумов.

Наконец, для всех объектов доступны вручную созданные модели CAD для обучения методов обнаружения. Истинные объекты помечены с использованием полуавтоматического подхода, основанного на трехмерных данных 3D-датчика, снимающего в высоком качестве.

Датасет является эталонным для определения и оценки 3D-объектов в промышленных задачах.

Т-LESS

Количество изображений: 39 000 тренировочных + 10 000 тестовых (с каждого из трех датчиков)

Количество объектов: 30

Год выпуска: 2017

Примеры тестовых изображений из датасета T-LESS (слева) и их 3D-модели (справа). Экземпляры одного и того же объекта выделены одним цветом

T-LESS — это новый открытый датасет для оценки 6D-позы, то есть поворотов и вращений нетекстурированных жестких объектов. Датасет содержит  30 промышленных объектов с одинаковыми текстурой, цветом и отражающей способностью. Другим уникальным свойством набора является то, что некоторые объекты являются частями других.

Разработчики T-LESS использовали разные подходы к учебным и тестовым изображениям. Учебные изображения в этом датасете представлены отдельными объектами на черном фоне, а тестовые изображения — 20 сценами различной степени сложности. Вот примеры учебных и тестовых изображений:

Все обучающие и тренировочные изображения были сняты тремя синхронизованными датчиками. Для каждого объекта представлено два типа 3D-моделей: вручную созданная модель CAD и полуавтоматически реконструированная модель.

Датасет полезен для оценки 6D-позы объекта, обнаружения и сегментации 2D-объектов и реконструкции 3D-объектов. Наличие изображений с трех датчиков позволяет изучить влияние различных факторов на эффективность решения перечисленных задач.

Сверху: изображения для обучения и 3D-модели 30 объектов. Снизу: тестовые изображения 20 сцен с помеченными цветом истинными 3D-моделями

Falling Things

Количество изображений: 61 500

Количество объектов: 21 хозяйственный объект

Год выпуска: 2018

Пример изображения из датасета FAT

Falling Things (FAT) — это искусственный датасет для определения 3D-объектов и оценки позы, разработанный командой NVIDIA. Он был создан путем размещения 3D-моделей предметов домашнего хозяйства (например, бутылки с горчицей, супа, желатина и т. д.) в виртуальных средах.

Каждый снимок в датасете включает сегментацию классов по пикселям,  2D/3D границы всех объектов, моно и стерео RGB-изображения, карты глубины и 3D-позы. Большинство этих меток представлены на приведенном выше изображении.

Датасет FAT включает в себя множество объектов, фоновых изображений, сочетаний объектов и условий освещения. Ниже приведены примеры:

Примеры изображений из датасета FAT

Для получения дополнительной информации о процессе создания набора данных FAT ознакомьтесь с нашей статьей, полностью посвященной этому датасету.

Датасет Falling Things предоставляет отличную возможность ускорить исследования в области обнаружения объектов и оценки позы, а также сегментации, оценки глубины и модальности датчиков.

Заключение

У задачи распознавания 3D объектов есть несколько важных приложений, но прогресс в этой области ограничен качеством доступных датасетов. К счастью, в последние годы появились новые датасеты для распознавания 3D-объектов. Хотя они имеют разный размер и характеристики, каждый из этих датасетов вносит существенный вклад в улучшение существующих систем распознавания 3D-объектов.

Новые датасеты для задачи распознавания действий на видео

25 октября 2018
action recognition datasets

Новые датасеты для задачи распознавания действий на видео

Распознавание действий крайне важно для задач видеонаблюдения, здравоохранения и взаимодействия человека с компьютером. Но как классифицировать видео по действиям, выполняемым на них? Классифицировать видео, на которых выполняется только одно действие, не…

Распознавание действий крайне важно для задач видеонаблюдения, здравоохранения и взаимодействия человека с компьютером. Но как классифицировать видео по действиям, выполняемым на них?

Классифицировать видео, на которых выполняется только одно действие, не так сложно. Задача схожа с проблемой классификации изображений. Но в данном случае она распространяется на несколько сцен с последующим анализом каждой из них. Известно, что после появления датасета ImageNet, алгоритмы глубокого обучения стали лучше справляться с классификацией изображений. Но наблюдается ли такой же прогресс в классификации видео или в задачах распознавания действий?

Ряд проблем делают распознавание действий гораздо более сложной задачей, среди которых — необходимость аренды огромных вычислительных мощностей для анализа видео и, конечно же, потребность в датасетах.

Хороший датасет для задачи распознавания действий должен состоять из большого количества данных и содержать разнообразные типы действий, которые позволят обучить разработанную архитектуру для распознавания разного вида действий.

К счастью, в 2017-2018 годах было представлено несколько таких датасетов. Вот некоторые из них.

Датасет KINETICS-600

  • Количество видео: 500 000
  • Количество типов движений: 600
  • Год: 2018

Kinetics_dataset

Начнем с датасета, представленного командой Google DeepMind. Это датасет Kinetics — крупномасштабный высококачественный датасет ссылок на видео из YouTube, разработанный для улучшения распознавания действий человека. Его последняя версия называется Kinetics-600 и включает около 500 000 видео, которые охватывают 600 типов действий и как минимум 600 видео с каждым из них.

Каждый ролик в Kinetics-600 берется из одного видео на YouTube, длится около 10 секунд, помечен одним типом и прошел несколько этапов ручного аннотирования. Для маркировки было создано одностраничное веб-приложение, интерфейс которого можно видеть ниже.

Интерфейс маркировки Kinetics dataset
Интерфейс маркировки

Если сотрудник ответил «да» на вопрос «видите ли вы человека, выполняющего действие class-name?», ему задается следующий вопрос «продолжается ли это действие в течение всего видео?» для последующего использования этой метки при обучении модели.

Создатели Kinetics-600 также проверили, сбалансирован ли их датасет, и обнаружили, что примерно 15% типов действий несбалансированы, но это не приводит к необъективности модели.

Действия в данном датасете охватывают широкий спектр типов, включая взаимодействие человека и объекта: игра на музыкальных инструментах, рассадка цветов, стрижка газона, приготовление яиц и многие другие.

Датасет Moments In Time

  • Количество видео: 1 000 000
  • Количество типов движений: 339
  • Год: 2018
Примеры из датасета Moments in Time
Примеры из датасета Moments in Time

Moments in Time — еще один большой датасет для распознавания действий, разработанный в лаборатории MIT-IBM Watson AI. Коллекция из 1 000 000 помеченных 3-секундных видео не ограничивается только действиями человека и включает людей, животных, объекты и природные явления, которые захватывают суть динамической сцены.

У этого датасета есть существенные внутриклассовые различия внутри групп. Например, видео, помеченные как «открывание», включают в себя людей, открывающих двери, ворота, ящики, шторы и подарки; животных и людей, открывающих глаза и рот, и даже цветки, раскрывающие свои лепестки.

Тот факт, что все вышеупомянутые сценарии относятся к одной и той же категории «открывание», является естественным, хотя визуально они сильно отличаются друг от друга. Таким образом, как отмечают исследователи, задача заключается в разработке алгоритмов глубокого обучения, которые также могут различать различные действия, но при этом обобщать их на различные случаи в рамках одного и того же действия.

Типы действий в наборе данных Moments in Time выбраны так, что они включают наиболее часто используемые глаголы на английском языке, охватывающие широкое и разнообразное семантическое пространство. Таким образом, в наборе данных имеется 339 различных классов действий с 1 757 помеченными видеороликами в каждом классе; каждое видео помечено только одним типом действия.

Процесс маркировки
Процесс маркировки

Как видно на изображении, процесс маркировки очень прост: участникам предлагались видео вместе с глаголом действия. Если пара совпадает, нужно ответить «да», в противном случае — «нет». Для учебного набора исследователи пропускали каждый видеоролик через процедуру маркировки не менее 3 раз, граница доверительного интервала была выбрана равной 75%. Для проверочных и тестовых наборов минимальное число этапов маркировки было равно 4 с границей доверительного интервала 85%.

Датасет SLAC

  • Количество видео: 520 000 -> 1.75 млн двухсекундных видео
  • Количество типов движений: 200
  • Год: 2017
Процедура маркировки - датасет SLAC
Процедура маркировки

Группа исследователей из Массачусетского технологического института (MIT) и Facebook представила датасет Sparcely Labeled ACtions Dataset. Он, как и Kinetics, состоит из различных типов действий человека и включает более 520 тыс. необработанных видеороликов с YouTube со средней длительностью 2,6 минуты. 2-секундные ролики были получены из видео с помощью нового активного подхода к формированию выборки. В результате получилось 1.75 млн роликов, включая 755 тыс. положительных примеров и 993 тыс. отрицательных примеров, помеченных профессиональной командой из 70 человек.

Как можно видеть, отличительной особенностью этого датасета является наличие негативных данных. Примеры негативных данных приведены ниже.

Негативные данные из датасета SLAC
Негативные данные из датасета SLAC

Датасет включает 200 типов действий, взятых из другого датасета ActivityNet.

Обратите внимание: несмотря на то, что статья, в которой представлен этот датасет, был выпущен в декабре 2017 года, он по-прежнему недоступен для скачивания. Надеюсь, ситуация скоро изменится.

Датасет VLOG

  • Количество видео: 114 000
  • Год: 2017
Примеры из датасета VLOG
Примеры из датасета VLOG

Датасет VLOG отличается от предыдущих тем, как он был собран. Традиционный подход к получению данных начинается с подготовки списка классов, а затем происходит поиск соответствующих им данных.

Однако такой подход сталкивается с проблемами, поскольку действия вряд ли будут помечены в Интернете. Можете ли вы представить себя загружающим и помечающим видео о том, как вы включаете микроволновую печь, открываете холодильник или встаете с постели? Обычно помечаются необычные вещи, например, например, прыжки в бассейне или игра на арфе. В результате имеющиеся датасеты часто несбалансированы: в них доминируют более редкие типы действий по сравнению с рутинными.

Для решения этой проблемы исследователи из Калифорнийского университета предлагают начать с того, что нам действительно нужно, а именно с получения видео с повседневными действиями, и уже после этого помечать их. Сбор начинается со влогов — крайне популярного жанра видео, в которых люди документируют свою жизнь.

Схема автоматического сбора данных из датасета
Схема автоматического сбора данных

Поскольку данные собираются автоматически, их маркировка представляет определенную трудность. Исследователи решили сосредоточиться на важном типе действий: жестикуляции. Предполагается, что этот датасет позволит лучше обучить модели распознавать движения рук.

Заключение

Проблема распознавания действий требует огромных вычислительных затрат и большого количества данных. К счастью, в течение прошлого года появилось несколько очень хороших датасетов. Наряду с представленными ранее образцовыми датасетами (ActivityNet, UCF101, HMDB) они формируют отличную основу для значительного улучшения эффективности систем распознавания движений.


Интересные статьи:

Датасеты для распознавания лиц в сложных условиях — в масках, очках, с макияжем

11 октября 2018
Датасеты для распознавания лиц в сложных условиях — в масках, очках, с макияжем, в старости

Датасеты для распознавания лиц в сложных условиях — в масках, очках, с макияжем

Распознавание лиц — рядовая задача глубокого обучения, и сверточные нейронные сети справляются с ней довольно хорошо. Facebook обычно правильно распознает вас и ваших друзей на фотографиях. Но является ли данная…

Распознавание лиц — рядовая задача глубокого обучения, и сверточные нейронные сети справляются с ней довольно хорошо. Facebook обычно правильно распознает вас и ваших друзей на фотографиях.

Но является ли данная задача решенной? Что делать, если изображение сбивает с толку? Что, если человек выдает себя за кого-то другого? Может ли большое количество макияжа обмануть нейронную сеть? Насколько легко распознать человека, который носит очки?

Распознавание замаскированных лиц по-прежнему представляет собой довольно сложную задачу для нейронных сетей, в первую очередь из-за отсутствия подходящих датасетов. В этой статье мы представим несколько собранных в последнее время датасетов. Каждый из них отражает различные типы искажений лиц, но их цель одна и та же — помочь разработчикам создавать лучшие модели для распознавания замаскированных лиц.

Disguised Faces in the Wild

Количество изображений: 11 157

Количество лиц: 1 000

Год: 2018

Изображения: истинное, изображение-подтверждение, замаскированное, изображение-имитатор.

Начнем с самого нового датасета, представленного ранее в этом году – Disguised Faces in the Wild (DFW). В основном он состоит из изображений знаменитостей индийского или европейского происхождения. В датасете основное внимание уделяется задаче распознавания замаскированных лиц.

Согласно описанию DFW, в него включены следующие изображения лиц: с закрывающими лицо прическами, бородой, усами, очками, макияжем, головными уборами (шляпы, тюрбаны, вуали) и маскарадными масками. Изображения отличаются позой человека, его выражением лица, этнической принадлежностью, возрастом, полом, одеждой, а также освещением, фоном и качеством камеры.

В датасете есть четыре типа изображений:

  • Истинное изображение лица: для каждого человека есть фотография, на котором его лицо не скрыто.
  • Изображение-подтверждение: для 903 человек имеются изображения, на котором их лица не скрыты и могут быть использованы для установления соответствия.
  • Замаскированное изображение лица: для каждого человека имеется от 1 до 12 изображений с преднамеренно или непреднамеренно замаскированным лицом.
  • Изображение имитатора: для 874 человек имеется от 1 до 21 изображений их имитаторов. Имитатор —  любой другой человек, намеренно или непреднамеренно претендующий на то, чтобы выдать себя за другого.
Пример изображений трех человек из датасета DFW. Каждая строка соответствует одному человеку и содержит истинное изображение (серая рамка), изображение-подтверждение (желтая), замаскированное изображение (зеленая) и изображение имитатора (синяя).

Суммарно датасет DFW содержит 1 000 обычных изображений, 903 изображений-подтверждений, 4 814 замаскированных изображений и 4 440 изображений имитаторов.

Makeup Induced Face Spoofing

Количество изображений: 642

Количество лиц: 107 + 107 знаменитостей

Год: 2017

Попытка человека выдать себя за знаменитостей.

Makeup Induced Face Spoofing dataset (MIFS) также используется для распознавания лиц имитаторов, но с упором на макияж. Исследователи извлекли изображения из видео на YouTube, на которых бьюти-блоггеры использовали макияж для того, чтобы стать похожими на знаменитостей. Следует отметить, однако, что они не пытались обмануть автоматизированную систему распознавания лиц сознательно, а лишь хотели добиться зрительного сходства со знаменитостями.

Датасет состоит из 107 наборов из четырех фотографий: 2 до макияжа и 2 — после. Кроме того, в каждый набор включено по два изображения знаменитостей. Тем не менее, важно указать, что эти изображения не обязательно используются как опорные: знаменитости иногда сильно меняют внешность, и поэтому исследователи пытались выбрать такие их фотографии, которые были бы наиболее схожи с фотографиями имитаторов после макияжа.

Наконец, на всех изображениях оставлялись только лица. После этого на них уже не видны прическа и украшения. Примеры изображений приведены ниже.

Примеры изображений в датасете MIFS: до макияжа/после макияжа/изображение знаменитости.

Всего датасет MIFS содержит 214 изображений лиц до макияжа, 214 — после, и 214 изображений знаменитостей, с которыми блоггеры хотели добиться сходства. Следует отметить, что если один человек пытался добиться сходства с несколькими знаменитостями, или же несколько человек пытались повторить внешность одной знаменитости, то все изображения дублируются соответствующее число раз.

Датасет Specs on Faces

Количество изображений: 42 592

Количество лиц: 112

Год: 2017

Примеры изображений из датасета SoF: метаданные для каждого изображения включают 17 меток лица, прямоугольник, выделяющий очки, и прямоугольник, выделяющий лицо.

Считается, что очки, как пример естественной окклюзии, нарушают работу многих алгоритмов распознавания лиц. Вот почему датасет изображений людей в очках имеет особое значение. Specs on Faces dataset (SoF) включают в себя 2 662 изображения размером 640 × 480 пикселей, на которых изображены 112 человек (66 мужчин и 46 женщин) разных возрастов. На всех из них надеты очки. Датасет состоит из двух частей:

  • 757 фотографий лиц, снятых в разных условиях (время, место, естественное/искусственное освещение);
  • 1905 фотографий лиц, снятых специально в плохих условиях освещения: 12 человек были сфотографированы под светом одной лампой, расположенной под разными углами, чтобы получить разные направления тени.
Фотографии, снятые в разных условиях освещения.

Также для каждого из исходных изображений имеются:

  • 6 дополнительных изображений с искусственной окклюзией — нос и рот закрыты белым прямоугольником;
  • 9 дополнительных изображений с наложенными фильтрами: гауссовским шумом, гауссовским размытием и изогелией с использованием нечеткой логики.

Таким образом, SoF включает в себя 42 592 изображения 112 человек и огромный бонус — расставленные вручную метки, которые содержат идентификатор человека, ориентацию фото (фронтальная или нет), 17 меток лица, прямоугольники, выделяющие лицо и очки, а также метки пола, возраста, эмоции на лице человека и качество освещения.

Large Age-Gap Face Verification

Количество изображений: 3 828

Количество лиц: 1 010 знаменитостей

Год: 2017

Примеры пар изображений одного человека в датасете LAG.

Еще одной проблемой является большая разница в возрасте одного и того же человека на разных фотографиях. Может ли алгоритм распознать личность по детской фотографии? Датасет Large-age gap (LAG) был создан для того, чтобы помочь разработчикам решить эту сложную задачу.

Датасет состоит из фотографий знаменитостей, найденных в поиске Google по картинкам и в видео на YouTube. Есть два случая: большая разница в возрасте на фотографиях (например, 0 и 80 лет) и значительное изменение внешности вследствие взросления. Как говорит автор датасета, «от 0 до 15 лет — относительно небольшая разница в возрасте, приводящая к большой разнице во внешности».

Датасет LAG учитывает оба варианта. Он содержит 3 828 изображений 1 010 знаменитостей. Для каждого из них есть хотя бы одно изображение в детстве (молодости) и одно изображение в среднем (пожилом) возрасте. Всего было сгенерировано 5 051 пар изображений.

Еще примеры пар изображений одного человека в датасете LAG.

Проблема распознавания лиц до сих пор актуальна. Существует множество сложных задач, с которыми не справляются существующие алгоритмы распознавания лиц — для них проблемой оказывается даже наличие очков. К счастью, регулярно появляются новые датасеты изображений лиц. Хотя каждый из них фокусируется на различных аспектах проблемы, вместе они создают отличную основу для значительного улучшения работы систем распознавания лиц.

UFDD — датасет для обнаружения лиц в условиях дождя, снега, тумана и в движении

21 сентября 2018
UFFD face detection dataset

UFDD — датасет для обнаружения лиц в условиях дождя, снега, тумана и в движении

Решение задачи распознавания лица на изображении подразумевает, что сначала нужно обнаружить это лицо. Механизмы детекции лиц улучшилось за последние годы, алгоритмы работают при  различающихся масштабах и позах. Тем не менее, некоторые проблемы…

Решение задачи распознавания лица на изображении подразумевает, что сначала нужно обнаружить это лицо. Механизмы детекции лиц улучшилось за последние годы, алгоритмы работают при  различающихся масштабах и позах. Тем не менее, некоторые проблемы до сих пор игнорируются в конкретных подходах и датасетах для распознавания лиц.

Группа исследователей, возглавляемя Hajime Nada из Fujitsu, выявила ряд проблем при обнаружении лиц и собрала UFDD датасет, чтобы решить эти проблемы. Датасет включает в себя фотографии в дождь, снег, туман, при слабом освещении и сильно размытые. Кроме того, он также содержит набор дистракторов — изображений, на которых нет лиц, но есть объекты, которые ошибочно принимаются за лица.

Проверим, как современные подходы к обнаружению лиц работают с этим новым сложным датасетом. Виден ли разрыв между качеством работы алгоритмов и требованиями, предъявляемыми к ним? Узнаем прямо сейчас!

Датасеты для обнаружения лиц

Для распознавания лиц было разработано несколько датасетов. В таблице представлены параметры самых популярных используемых из них:

face detection datasets

Давайте кратко обсудим некоторые преимущества и недостатки этих датасетов:

  • AFW состоит из 205 изображений, собранных на сервисе Flickr. Он содержит 473 вида пометок, включая лицевые лендмарки и ярлыки для разных людей. Различия в стилях и условиях съемки незначительны.
  • PASCAL FACE содержит 851 изображение с 1 341 пометкой. Как и в предыдущем датасете, различия в условиях съемки незначительны.
  • FDDB — 2 845 изображений с 5 171 пометок. Авторы датасета старались сделать его разнообразным. Однако изображения были взяты из Yahoo! и, в основном, содержат лица знаменитостей.
  • MALF — датасет из 5250 изображений и 11 900 пометок. Разработан специально для обработки мелкозернистых изображений.
  • IJB-C — большой датасет, содержащий 138 000 изображений с лицами, 11 000 видео и 10 000 изображений без лиц. IJB-C разработан специально для обнаруженияи распознавания лиц.
  • WIDER FACE — недавно представленный датасет с более чем 32 300 изображениями. Он включает фотографии с сильно различающимися условиями съемки (масштабом, позой, углом обзора), но не предназначен для учета деградаций, связанных с погодными условиями.
  • Датасет UCCS позволяет работать со снимками, сделанными в сложных погодных условиях. Однако изображения собраны с помощью одной камеры наблюдения. Следовательно, этот датасет не представляет многообразие условий съемки.

Несмотря на огромное количество изображений и условий съемки, существующие датасеты не позволяют изучать деградации, связанные с погодными (и другими) условиями, на большой выборке. Именно эту нишу занимает новый датасет.

Датасет UFDD

UFDD включает в себя 6,424 изображения с 10 895 метками. Изображения в нем обладают большой вариабельностью погодных условий (дождь, снег, туман), размытости движений, фокуса, освещения и препятствий на объективе. Количество изображений в группах различных ухудшений приведено в таблице:

face detection in the wild

Примечательно, что UFDD включает в себя набор изображений-дистракторов, которые обычно отсутствуют в других датасетах. На них либо нет лица, либо есть морды животных. Наличие таких изображений важно для определения эффективности алгоритма и изучения статистики ложно-позитивных срабатываний.

UFDD собран из изображений с Google, Bing, Yahoo, Creative Commons Search, Pixabay, Pixels, Wikimedia commons, Flickr, Unsplash, Vimeo и Baidu. После cбора и удаления дубликатов, изображения были сжаты/растянуты до 1024 пикселей по ширине при сохранении их исходных пропорций.

Для создания пометок изображения загружались в AMT (Amazon Mechanical turk). Для каждого изображения назначалось 5-9 сотрудников, которым было предложено поставить метки распознаваемым лицам. По завершении работы пометки окончательно утверждались и при необходимости объединялись.

Оценка и анализ

Ученые отобрали несколько алгоритмов обнаружения лиц для оценки датасета UFDD. Среди них:

  • Faster-RCNN — один из первых сквозных методов обнаружения объектов на основе сверточной нейронной сети. Он был выбран в качестве основного алгоритма, так как в нем впервые были использованы anchor boxes — стандартный подход для большинства методов распознавания лиц.
  • HR-ER работает с существенно различающимися масштабами, распознавание работает на основе ResNet-101.
  • SSH также работает с различными масштабами и состоит из нескольких детекторов на conv-слоях VGG-16.
  • S3FD основан на популярной инфраструктуре распознавания объектов, SSD, с VGG-16 в качестве основной сети.

Перечисленные алгоритмы были протестированы на датасете UFDD в двух различных сценариях:

  • После предварительного обучения на датасете WIDER FACE;
  • После предварительного обучения на датасете WIDER FACE, искусственно дополненном изображениями с ухудшениями, такими как дождь, снег, размытие и препятствия. Пример:
Выборка помеченных изображений из искусственно дополненного датасета WIDER FACE (слева направо и сверху вниз: дождь, снег, размытие в движении, размытие по Гауссу, измененное освещение, препятствия на объективе)
Выборка помеченных изображений из искусственно дополненного датасета WIDER FACE (слева направо и сверху вниз: дождь, снег, размытие в движении, размытие по Гауссу, измененное освещение, препятствия на объективе)

На следующем рисунке приведены зависимости точности алгоритмов от их чувствительности:

обнаружение лиц на фотографиях
Результаты оценки алгоритмов распознавания лиц на новом датасете UFDD, обученных на датасете WIDER FACE (слева) и на искусственно дополненном WIDER FACE (справа)

В таблице 3 приведена средняя точность (mAP) алгоритмов в зависимости от тренировочного датасета:

face detection

Можно отметить, что современные алгоритмы плохо справляются со сложными типами ухудшений. Однако эффективность обнаружения увеличивается после тренировке на искусственном датасете, что еще раз подтверждает важность датасетов, содержащих деградации (дождь, снег и т. д.).

Анализ по группам

Ученые также проанализировали влияние каждого типа ухудшений на эффективность современных методов обнаружения лиц. Ниже приведены результаты распознавания для всех упомянутых выше алгоритмов:

UFFD dataset
Результаты распознавания лиц на датасете UFDD

Графики зависимости точности от чувствительности:

Анализ по группам: зависимость точности от чувствительности различных алгоритмов обнаружения лиц для каждого типа ухудшений на новом датасете UFDD
Анализ по группам: зависимость точности от чувствительности различных алгоритмов обнаружения лиц для каждого типа ухудшений на новом датасете UFDD

Очевидно, что все рассмотренные типы ухудшений снижают эффективность сравниваемых алгоритмов. Это не удивительно, учитывая, что они обучаются на датасетах, которые обычно не содержат достаточного количества изображений с этими ухудшениями.

Результаты оценки также показывают влияние дистракторов на эффективность алгоритмов распознавания лица. Дистракторы содержат объекты, которые ошибочно принимаются за человеческие лица и, следовательно, приводят к большой вероятности ложно-позитивного срабатывания. Улучшение точности при обучении на дистракторах видно из таблицы:

Результаты распознавания лиц на новом датасете UFDD с использованием дистракторов и без них
Результаты распознавания лиц на новом датасете UFDD с использованием дистракторов и без них

Несмотря на прогресс в последние несколько лет, алгоритмы обнаружения лиц по-прежнему не справляются с изображениями, сделанными в экстремальных погодных условиях и в движении. Это связано с отсутствием подходящих датасетов для обучения.

Датасет UFDD решает эту проблему. Надеюсь, он будет способствовать дальнейшему развитию техники распознавания лиц, и вскоре мы увидим новые современные подходы, которые могут легко распознавать лица в экстремальных условиях съемки. Датасет доступен по ссылке.


Интересные статьи:

Google представил инструмент для быстрого поиска датасетов

6 сентября 2018
google dataset search

Google представил инструмент для быстрого поиска датасетов

В интернете есть репозитории, которые обеспечивают доступ к миллионам наборов данных. Проблема в том, что трудно найти датасет, если нет прямой ссылки на него. Наборы данных плохо индексируется поисковиками, а если внутри нет описания…

В интернете есть репозитории, которые обеспечивают доступ к миллионам наборов данных. Проблема в том, что трудно найти датасет, если нет прямой ссылки на него. Наборы данных плохо индексируется поисковиками, а если внутри нет описания и подписей к изображениям, датасет даже не будет проиндексирован роботами.

Чтобы оптимизировать поиск датасетов, Google запустил Dataset Search.

Dataset Search находит наборы данных независимо от того, где они размещаются: на сайте издателя, в цифровой библиотеке или на личной странице автора. Сейчас в Dataset Search можно найти ссылки на датасеты по экологическим, социальным и другим наукам, и данные, предоставленные правительственными организациями и новостными ресурсами.

 

dataset search google

 

Чтобы Google лучше понимал содержимое страниц, компания разработала рекомендации для издателей. Описание датасета должно включать имя создателя, дату публикации, информацию о том, как собирались данные и т.д. Подход основан на открытом стандарте для описания информации schema.org. Если издатели начнут следовать инструкциям, то найти датасет будет также просто, как погоду в своем городе. 

На данный момент Dataset Search работает в бета-режиме.


Интересное по теме:

Как создать собственный датасет из картинок Google

13 июня 2018
grabber for google images

Как создать собственный датасет из картинок Google

Данные — это топливо, которое двигает глубокое обучение вперёд. Объём данных, свободно доступных в Сети, постоянно растёт. Большие датасеты с изображениями, такие как Pascal VOC, ImageNet и относительно свежий датасет Google Open…

Данные — это топливо, которое двигает глубокое обучение вперёд. Объём данных, свободно доступных в Сети, постоянно растёт. Большие датасеты с изображениями, такие как Pascal VOC, ImageNet и относительно свежий датасет Google Open Images продвинули точность распознавания выше человеческого уровня. Кроме того, исследовали собрали много специализированных датасетов, таких, как Food 101 и Soccer Player Detection (скорее всего, не без помощи подневольных студентов).

Но что делать, если датасета для вашей задачи не существует?Попробуем найти одно из решений этой проблемы: cделаем граббер, который соберёт датасет из результатов поиска картинок в Google или Bing. Он будет развёрнут на AWS Lambda с использованием бессерверной архитектуры, и тому есть две причины. Во-первых, благодаря этому граббер будет легко горизонтально масштабироваться, а во-вторых, просто хотелось поиграться с этой технологией. Код доступен по ссылке.

Я покажу вам этот метод на примере игрушечного проекта «Искусство или нет?» Этот проект попытается дать ответ на вековой вопрос, является ли тот или иной объект искусством.

“Искусственный” датасет

Для обучения классификатора, который знает, является ли нечто искусством, нам понадобятся картинки двух типов:

  • Изображения искусства (положительные примеры)
  • Изображения чего угодно ещё (отрицательные примеры)

Граббим Google Images

Немного погуглив, я нашёл списки разных видов искусства, которые решил использовать как запросы для поисковика. Вот некоторые из них:

  1. Абстрактное искусство
  2. Абстрактный экспрессионизм
  3. Акриловая живопись
  4. Античная поэзия
  5. Анимация
  6. Архитектура
  7. Ар-брют
  8. Ар-деко
  9. Ар-нуво

В итоговый список вошло примерно 120 категорий искусства. Но его никак нельзя назвать полным и исчерпывающим, мы с этим ещё столкнёмся.

Создаем приложение

Мы будем писать приложение с помощью библиотеки Serverless. Скрипт для деплоя делает много разных вещей: создаёт Lambda-функции, загружает их код в облако, настраивает привилегии, создаёт таблицы DynamoDB, настраивает автоматическое масштабирование этих таблиц, и соединяет друг с другом триггеры, по которым срабатывают функции. Всё это происходит по одной простой команде:

sls deploy

Затем загрузим категории искусства в табличку DynamoDB (это делается простым скриптом). Каждый раз, когда в этой таблице добавляется (удаляется, обновляется) элемент, другой скрипт начинает собирать урлы картинок для этой категории. Будем называть этот скрипт «Граббером запросов».

Скрипт живёт внутри Lambda-функции.

Что такое AWS Lambda?

AWS Lambda — сервис, который запускает код в так называемом «бессерверном» (serverless) окружении. Это значит, что вам не нужно выделять серверы для вашего приложения, не нужно заниматься его администрированием или заботиться о масштабировании. Всем этим занимается AWS. Вы платите Амазону только за время, в течении которого работает приложение, с точностью до сотни миллисекунд. Lambda-функция срабатывает в ответ на различные события в облаке Амазона: в DynamoDB добавлена запись, на S3 загружен файл, на AWS API Gateway пришёл HTTP-запрос — возможных событий очень много.

Под капотом происходит следующее: как только происходит событие, которого ожидает Lambda-функция, AWS создаёт сервер (или воспользуется существующим), и запускает код функции в контейнере. Круто здесь то, что такая система способна масштабироваться до тысяч и более запусков в секунду. Ощущение как от технологии будущего.

Итак, у нас есть граббер запросов, который скармливает запросы поисковику (Google Images или Bing Image Search API) с помощьюPhantom.js и Selenium. Затем Lambda-функция прокручивает страницу до конца, чтобы загрузились все изображения. При необходимости скрипт нажимает на «Далее», пока картинки не закончатся. Затем со страницы собираются и сохраняются все ссылки на картинки.

Одна из особенностей Lambda — это то, что каждая функция должна работать не дольше пяти минут. Поскольку мы хотим скачать как можно больше картинок по каждой категории, мы не запускаем сбор урлов и скачивание в одной функции.

Вместо этого используется вторая таблица в DynamoDB, в которой Граббер запросов записывает ссылки на изображения, которые находит. Добавление в эту таблицу инициирует другую Lambda-функцию, которая скачивает картинку и сохраняет её на S3 для дальнейшего использования.

Цена DynamoDB

Я всё ещё в нерешительности насчёт DynamoDB, поскольку пользоваться им в течение длительного срока “вроде как довольно невыгодно”. Тем не менее, для подобных одноразовых проектов он в самый раз. AWS даёт бесплатно 25 единиц пропускной способности на чтение и запись. Это позволяет бесплатно делать 25 запросов на чтение и запись в секунду. Со включенным автомасштабированием, лимит для каждой таблицы может автоматически повышаться до 1000 запросов в секунду, а затем уменьшаться обратно в соответствии с нагрузкой. До тех пор, пока сумма выделенной пропускной способности за месяц не превышает в среднем 25, всё должно быть бесплатно. (Кажется, автор оригинальной статьи запутался в ценовой политике Амазона, что немудрено. Судя по всему, считается средняя пропускная способность не за месяц, а за час. — прим. перев.)

После того как Lambda-функции завершили свою магию, у нас образовалось около 1000 изображений для каждой категории — всего 120 тысяч картинок.

Если хотите обучиться на картинках локально, можете скачать датасет (здесь скрипт для этого). Вместо этого можно оставить датасет на S3 и обучаться в облаке Амазона.

Вот примеры собранных картинок. Как видно, на большинстве из них действительно изображено искусство.

examples

Проблемы такого датасета

На этом этапе у вас могли возникнуть два очень правильных вопроса.

Разве мы таким образом не выучим ошибку (bias) поисковика?

Это мы и делаем: выучиваем, что поисковик знает о данной категории. Я бы сказал, что это в некотором смысле выжимка знаний (Knowledge Distillation). Мы берём все данные и метаданные об изображениях, которые есть у Гугла, а также знания, накопленные их моделями, и выжимаем все эти знания в одну модель. И всё же, если Гугл не считает что-то хорошим примером абстрактного искусства, наша модель тоже будет так думать.

Разве мы не получим очень шумные данные?

Так и есть, и это может стать проблемой, если у вас нет способа почистить их. Например, если вы таким образом собираете датасет с различными моделями машин, вам нужно будет прогнать данные через детектор машин, и убрать изображения, на которых машин не обнаружено. Если вы делаете датасет селфи, как Эндрю Карпаты, вам нужно будет проверить, что на каждой картинке есть лицо.

Я не придумал, как почистить датасет в случае с искусством, так что решил надеяться, что поможет просто большой объём данных.

Собираем набор отрицательных примеров

Чтобы уметь отличать искусство от неискусства, модель должна увидеть примеры вещей, искусством не являющихся. К счастью, у нас есть датасет ImageNet, в котором, по удачному стечению обстоятельств, собрано много изображений таких вещей.

ImageNet LSVRC 2012 можно скачать с сайта Academic Torrents.

Чтобы не добавлять ещё больше шума в наш датасет, отфильтруем те классы ImageNet, которые не связаны семантически с нашими категориями.

Для этого мы воспользуемся векторными представлениями слов (word embeddings) из пакета Gensim. С их помощью мы переведём классы ImageNet и наши категории в их word2vec-версии.

Word2vec

Word2vec — это модель (группа моделей — прим. перев.), которая отображает слово в 300-мерный вектор, который называется его представлением. Сеть обучена помещать рядом в этом 300-мерном пространстве слова, которые встречаются в похожих контекстах — например, слова король и царь. У представлений слов есть много интересных свойств, но интереснее всего то, что они позволяют нам производить над смыслами слов арифметические операции. Например:

word2vec(король) — word2vec(мужчина) + word2vec(женщина) = word2vec(королева)

Эта статья подробно объясняет векторные представления слов и их свойства.

Многие собранные категории описываются несколькими словами (например, «Античная поэзия»), поэтому для них я сложил их векторные представления. Например, вектор для «американского колониального искусства» вычислялся как word2vec(американское) + word2vec(колониальное) + word2vec(искусство).

Затем я посчитал косинусное расстояние между векторами для классов ImageNet и всеми категориями. Чем больше расстояние, тем меньше семантическая близость.

Я выбрал 66% самых удалённых классов ImageNet. Из-за этого потерялись некоторые потенциально неоднозначные классы, такие как «ваза». Теперь модель не увидит многие сложные отрицательные примеры — вещи, которые похожи на искусство, но не являются ими. Тем не менее, я решил пока забыть про эту проблему.

Из выбранных классов мы случайно выберем столько же изображений, сколько у нас положительных примеров.

В итоге, в нашем датасете около 120 тысяч положительных примеров искусства, и около 120 тысяч отрицательных примеров.

dataset examples

Обучение и оценка

В качестве модели донастроим предобученную на ImageNet модель Inception ResNet V2. Изображения приведём к размерам 299 на 299.

Для увеличения датасета воспользуемся аугментацией: поворотами, обрезанием, сдвигом, увеличением и горизонтальным отражением.

Уберём только последний слой, и заменим его на дропаут с коэффициентом 0,8 и полносвязным слоем с двумя выходами.

После обучения последних 10 свёрточных слоёв модели в течение 5 эпох на валидационной выборке из 30 тысяч изображений достигается точность более 0,99.

Вот предсказания модели на валидационной выборке (второе изображение в третьем ряду классифицировано неверно).

model predictions
Результаты на валидационной выборке (обучался только последний слой)

Я собрал небольшую тестовую выборку из изображений, которые я сфотографировал сам.

test images
Результаты на тестовой выборке (обучался только последний слой)

Добавляем больше данных

Тем не менее, наш классификатор искусства лучше всего работает, когда объект (картина, статуя и т. д.) является основным на изображении. Так вышло из-за того, что Гугл в основном выдаёт изображения, которые прямо соответствуют запросу и не содержат лишнего шума (как и изображения в ImageNet — прим. ред.)

Чтобы справиться с этим, соберём второй набор категорий — ещё 30. Таким образом, мы надеемся получить фоновый шум, скачав изображений следующих вещей:

Галерея искусств

Музей искусств

Люди в музее

Селфи в музее

Инсталляция

Кроме того, добавим некоторые категории, которых не было в изначальном списке:

Граффити

Муралы

Перформанс

Уличные артисты

Декоративно-прикладное искусство

Религиозное искусство

Ожидаемо, это улучшило точность на изображениях, в которых есть люди. Кроме того, мы продемонстрировали огромное преимущество данного метода: мы смогли добавить новые объекты просто и недорого.

Наша модель выучила вероятностное распределение изображений, полученых из Гугла. Тем не менее, весьма вероятно, что настоящие картинки выглядят немного иначе и сломают модель. Предлагаю вам донастроить её с помощью типичных изображений, к которым вы хотите её применять. Потребуется гораздо меньше картинок. Код граббера выложен, можете с ним поиграться.

Несмотря на все возможные подводные камни, полагаю, что это ценный метод создания датасета в случаях, когда другие варианты недоступны или слишком дороги.

Оригинал

“Falling Things”: синтетический датасет от NVidia

26 апреля 2018
A Synthetic Dataset by Nvidia for Pose Estimation

“Falling Things”: синтетический датасет от NVidia

Нейросети критичны к объемам выборки, которая необходима для обучения. Большие датасеты далеко не так доступны, как хотелось бы разработчикам. На сбор информации уходит много времени, это дорого, и полученные данные…

Нейросети критичны к объемам выборки, которая необходима для обучения. Большие датасеты далеко не так доступны, как хотелось бы разработчикам. На сбор информации уходит много времени, это дорого, и полученные данные не всегда точны. Поэтому много проектов сегодня посвящены исключительно работе над созданием датасетов.

Датасет “Falling Things”

В NVidia проблема сбора решена благодаря использованию синтетически сгенерированных данных. Синтетический датасет — это производные данные, применимые к заданной ситуации, которые не получены посредством измерений. Разработчики использовали синтетические датасеты для тренировки глубоких нейронных сетей, которым нужны опорные данные для сегментации и оценки положения объекта в трёхмерном пространстве.

Falling Things (FAT) состоит из 61 000 изображений для обучения и проверки алгоритмов распознавания изображения в бытовой среде. Кроме него существует только два набора с точными опорными данными по положению множественных объектов: T-LESS и YCB-Video. Но в них нет примеров с экстремальными условиями освещения и несколькими модальностями. В FAT такие примеры есть.

“Falling Things”
Рисунок 1: Датасет FAT был создан на основе 3D-моделей бытовых предметов. Попиксельная сегментация объектов (внизу слева), глубина (нижний центр), координаты ограничительного прямоугольника 2D / 3D (внизу справа).

Unreal Engine

FAT работает с помощью Unreal Engine 4 (UE4). Данные генерируются для трех виртуальных локаций: кухня, солнечный храм и лес. Локации были выбраны из-за их достоверного моделирования в UE4 и для разнообразия. Для каждой среды вручную выбрано пять мест с разным рельефом и освещением, например: на кухонном столе или плиточном полу, рядом со скалой, над травой и т. д. Таким образом, получаются 15 локаций с не повторяющимся трехмерным фоном, условиями освещения и тенями.

Из YCB взяли 21 бытовой предмет. Предметы размещались в случайных положениях в вертикальном цилиндре радиусом 5 см и высотой 10 см. Для сбора данных, по мере того как объекты падали, объектив виртуальной камеры снимал объекты с разных координат (углы возвышения и азимуты относительно цилиндра). Азимут варьировался от -120◦ до 120◦ (чтобы “увернуться” от стены в тех случаях, где она была), углы возвышения от 5 до 85◦ и расстояние от 0,5 м до 1,5 м.

Виртуальная камера, используемая для генерации данных, состоит из пары стереофонических RGBD-камер. Такое решение позволяет поддерживать по меньшей мере три модальности датчиков. Хотя одиночные датчики RGBD широко применяются в робототехнике, стереодатчики дают меньшее количество искажений, а монокулярной камеры RGB есть очевидные преимущества с точки зрения стоимости, простоты и доступности.

Датасет FAT состоит из 61 500 изображений с разрешением 960 x 540 и разделен на две части:

Одиночные объекты: первая часть набора сгенерирована путем “бросания” каждого предмета по отдельности по ~ 5 раз в каждой из 15 локаций.

Смешанные объекты: вторая часть датасета сгенерирована таким же образом, однако “бросалось” от 2 до 10 объектов. Чтобы на изображениях попадались несколько экземпляров одного и того же объекта, он сэмплировался с заменой.

Одна локация из каждой среды была контрольной, а остальные использовались для обучения. Рисунок 2 показывает общее количество вхождений каждого класса объектов в наборе FAT.

object visibility
Рисунок 2: Общее число вхождений 21 объекта YCB в наборе FAT. Светлые столбики — видимость объекта более 25%, сплошные полосы — более 75%.

Подводя итог

FAT поможет ускорить исследования в области обнаружения объектов и оценки их положения в 3D-пространстве в контексте робототехники. В предлагаемом датасете основное внимание уделяется бытовым предметам из набора YCB.

object detection and pose estimation dataset
Рисунок 3: Датасеты для обнаружения объекта и оценки положения в пространстве.

Синтетически комбинируя объекты и фоны алгоритм генерирует фотореалистичные изображения с точными позициями в 3D-пространстве для каждого объекта на изображении.

Falling things examples
Рисунок 4. Примеры из набора данных.