fbpx
  • DELG: нейросеть для поиска изображений от Google AI

    Исследователи из Google AI предложили новый метод для поиска изображений, который объединяет локальные и глобальные признаки. Это позволяет обучать эффективные представления изображений. Представления затем можно использовать для задач на уровне объектов (instance-level).

    Распознавание объектов на изображении

    Задача распознавания объектов на уровне инстансов — это открытая задача в компьютерном зрении. Целью является выделить на изображении части, которые содержат отдельные инстансы объектов и классифицировать их. Это делает задачу сегментации объектов более сложной, чем стандартная задача классификации объектов. Задачу сегментации можно решить через поиск изображений: база данных фильтруется сначала по глобальным признакам, а затем по локальным. Такая система базируется на фреймворке, который объединяет глобальные и локальные признаки. 

    Подробнее про подход

    DELG — это end-to-end нейросеть для обучения представлений изображений. Модель состоит из двух частей:

    • Часть, которая отвечает за извлечение глобальных признаков из изображения. Затем эти признаки используются для фильтрации изображений;
    • Блок для извлечения локальных признаков, который использует признаки для ранжирования результатов фильтрации

    Исследователи предложили дополнительный автоэнкодер, который сокращает размерность признаков и повышает стабильность работы модели. Для обучения использовали датасет Google Landmarks Dataset (GLD). Тестировали подход на трех сабсетах: Oxford, Paris и GLD v2. Код DELG доступен в открытом репозитории на Github.