Curve-GCN: open source инструмент для разметки изображений

Curve-GCN инструмент для разметки изображений

Исследователи из University of Toronto, Vector Institute и NVIDIA представили инструмент для упрощения процесса разметки изображений. Они обучили нейросеть Curve-GCN определять границы присутствующих на изображении объектов. Предложенная модель как минимум в два раза быстрее существующих.

Проблема разметки данных актуальна для задач классификации во всех сферах глубокого обучения, в том числе и в компьютерном зрении. Ручное аннотирование объектов на изображениях трудоемко и имеет другие недостатки, включая человеческий фактор при определении границ объекта.

Архитектура

Исследователи представили описание модели в работе Curve-GCN. Модель реализована на Pytorch.

Пайплайн работы модели включает в себя следующие шаги:

Изображение поступает на вход конволюционной сети с целью предсказания границ объекта;
Инициализируется N контрольных точек, объединенных в замкнутую кривую;
С помощью GCN выучивается оптимальное расположение точек, точно описывающее границы объекта.

Преимущество конечного инструмента в том, что человек может интерактивно исправлять ошибки, допущенные моделью при определении границ объекта.

Результаты экспериментов

Благодаря устройству модели, она наиболее эффективно позволяет определять границы объектов как полигонами, так и сплайнами. Понятия полигона и сплайна отсылают к компьютерной графике: сплайн — это кривая, а полигон — многоугольник. Иначе говоря, можно либо обвести объект на картинке кривой (набором кривых), либо наложить на объект многоугольник, описывающий границы объекта. Так, работа модели была протестирована на разных способах описания границ объекта. На последующих изображениях выбранный способ описания границ объекта прописан в названии модели: Spline-GCN и Polygon-GCN.

Классификация отдельных классов объектов

Один из проведенных экспериментов заключался в классификации отдельных классов (транспортных средств) на данных Cityscapes. Вариации предложенной GCN модели сравнивались с конкурирующими архитектурами: Polygon-RNN++, Polygon-RNN++ (с использование beam search) и PSP-DeepLab.

оценка результатов модели — Сравнение существующих архитектур на точность классификации объектов отдельных типов. + DiffAcc обозначает расширение существующей модели, в котором использовался модифицированный лосс.

По результатам эксперимента, наиболее точными оказались предсказания Spline-GCN c использование модифицированного лосса (Spline-GCN + DiffAcc) и PSP-DeepLab.

Сравнение скорости работы инструментов для разметки изображений

Однако если посмотреть на скорость работы всех архитектур, предложенная GCN значительно превосходит существующие модели по скорости.

Сравнение времени работы моделей, затрачиваемого на классификацию границ одного объекта.

Таким образом, исследователи представили оптимальное open-source решение для аннотирования изображений. Чтобы использовать аннотатор, необходимо зарегистрировать свой запрос по ссылке.

Видео-демонстрация работы устройства доступна по ссылке.