DELG: нейросеть для поиска изображений от Google AI

Исследователи из Google AI предложили новый метод для поиска изображений, который объединяет локальные и глобальные признаки. Это позволяет обучать эффективные представления изображений. Представления затем можно использовать для задач на уровне объектов (instance-level).

Распознавание объектов на изображении

Задача распознавания объектов на уровне инстансов — это открытая задача в компьютерном зрении. Целью является выделить на изображении части, которые содержат отдельные инстансы объектов и классифицировать их. Это делает задачу сегментации объектов более сложной, чем стандартная задача классификации объектов. Задачу сегментации можно решить через поиск изображений: база данных фильтруется сначала по глобальным признакам, а затем по локальным. Такая система базируется на фреймворке, который объединяет глобальные и локальные признаки. 

Подробнее про подход

DELG — это end-to-end нейросеть для обучения представлений изображений. Модель состоит из двух частей:

  • Часть, которая отвечает за извлечение глобальных признаков из изображения. Затем эти признаки используются для фильтрации изображений;
  • Блок для извлечения локальных признаков, который использует признаки для ранжирования результатов фильтрации

Исследователи предложили дополнительный автоэнкодер, который сокращает размерность признаков и повышает стабильность работы модели. Для обучения использовали датасет Google Landmarks Dataset (GLD). Тестировали подход на трех сабсетах: Oxford, Paris и GLD v2. Код DELG доступен в открытом репозитории на Github.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt