Оптимальная аугментация данных для задачи распознавания объектов от Google Brain

аугментация данных

Исследователи из Google Brain разработали метод аугментации данных, который увеличивает точность модели на 2.3 пункта для COCO и на 2.7 для PASCAL-VOC. Аугментация данных — это увеличение выборки для обучения модели путем модификации существующих данных. Использование методов аугментации показало себя хорошо на задаче классификации изображений. Несмотря на это, исследований влияния аугментации на точность моделей распознавания не было.

Аугментация данных может быть особенно полезна для задачи распознавания объектов, учитывая затрачиваемые ресурсы на разметку изображений. Исследователи выяснили, что методы аугментации для классификации изображений могут быть полезны для задачи распознавания. Но такие методы дают ограниченный прирост в точности модели. Поэтому фокусом исследования было определить, как выученные методы аугментации улучшают обобщающую способность модели. При этом модифицируется только тренировочный набор данных, а тестовый остается неизменным. Предложенный метод на маленьких датасетах выступает как способ регуляризации и не позволяет переобучаться на малопредставленных классах.

Что внутри

Исследователи сначала составили список возможных модификаций, которые проводятся над изображениями перед обучения модели распознаванию объектов. Всего функций получилось 22. Эти функции были реализованы на Tensorflow.

Выделенные функции делятся на следующие типы:

  • операции с цветом (подкрутить цветовые каналы, увеличение контраста или яркости);
  • геометрические операции (повернуть изображение, отразить изображение и т.п.);
  • операции с объектами (повернуть объект, отразить объект и т.п.)

Исследователи используют комбинацию из RNN и метода обучения с подкреплением для поиска оптимальной модификации изображения.

Примеры модификаций изображения (аугментация)
Примеры модификаций изображения

Оценка работы метода

Эксперименты на датасете COCO показывают, что оптимизированная аугментация данных увеличивает точность на более чем 2.3 пункта в сравнении с state-of-the-art. В качестве метрики — mAP (mean Average Precision). Важно, что выученная аугментация для COCO работает для любого другого датасета по распознаванию объектов. Например, аугментация данных для COCO улучшает базовую модель для PASCAL-VOC на 2.7 mAP. Результаты показывают, что выученная аугментация работает лучше, чем методы регуляризации для распознавания объектов.

Изменение метрики при наличии аугментации данных и без
Изменение метрики при наличии аугментации и без
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt