fbpx
  • Как делать аугментацию данных для задачи распознавания объектов

    Исследователи из Google Brain разработали метод поиска оптимальной обработки изображений перед обучением модели. Расширение данных с помощью методов аугментации увеличивает точность модели — на 2.3 пункта для COCO и на 2.7 для PASCAL-VOC. 

    Аугментация данных — это важный этап обучения моделей машинного обучения. Под аугментацией данных понимается увеличение выборки данных для обучения через модификацию существующих данных. Использование методов аугментации данных показало себя хорошо на задаче классификации изображений. Несмотря на это, исследований влияния аугментации на точность моделей распознавания не было. Учитывая ресурсы на разметку изображений, для задачи распознавания объектов аугментация может быть более полезна.

    Исследователи выяснили, что методы аугментации данных для классификации изображений могут быть полезны для задачи распознавания. Но такие методы дают ограниченный прирост в точности модели. Поэтому фокусом исследования было определить, как выученные методы аугментации улучшают обобщающую способность модели. При этом модифицируется только тренировочный набор данных, а тестовый остается неизменным. Предложенный метод на маленьких датасетах выступает как способ регуляризации и не позволяет переобучаться на малопредставленных классах.

    Что внутри

    Исследователи сначала составили список возможных модификаций, которые проводятся над изображениями перед обучения модели по распознаванию. Всего функций получилось 22. Эти функции были реализованы на Tensorflow

    Выделенные функции делятся на следующие типы:

    • операции с цветом (подкрутить цветовые каналы, увеличение контраста или яркости);
    • геометрические операции (повернуть изображение, отразить изображение и т.п.);
    • операции с объектами (повернуть объект, отразить объект и т.п.)

    Исследователи используют комбинацию из RNN и метода обучения с подкреплением для поиска оптимальной модификации изображения. 

    Примеры модификаций изображения

    Оценка работы метода

    Эксперименты на датасете COCO показывают, что оптимизированная аугментация данных увеличивает точность на более чем 2.3 пункта в сравнении с state-of-the-art. В качестве метрики — mAP (mean Average Precision). Важно, что выученная аугментация для COCO работает для любого другого датасета по распознаванию объектов. Например, аугментация для COCO улучшает базовую модель для PASCAL-VOC на 2.7 mAP. Результаты показывают, что выученная аугментация работает лучше, чем методы регуляризации для распознавания объектов.

    Изменение метрики при наличии аугментации и без