ACT: end-to-end распознавание объектов с помощью Transformer

ACT — это Transformer-модель для задачи end-to-end распознавания объектов на изображении. Она основана на DETR архитектуре, которая требует значительных вычислительных ресурсов для обучения. Результаты DETR по качеству сравнимы с двухступенчатыми архитектурами, как Faster-RCNN. ACT сохраняет качество предсказаний DETR и при этом сокращает количество требуемых ресурсов на обучение и инференс. Исследователи опубликовали код для воспроизведения экспериментов.

Подробнее про подход

Adaptive Clustering Transformer (ACT) сокращает траты на обработку изображений в высоком разрешении. ACT кластеризует query-признаки адаптивно с помощью  метода Locality Sensitive Hashing (LSH) и аппроксимирует взаимодействие query-key с помощью prototype-key взаимодействия. ACT может сократить квадратичную сложность O(N^2) внутри механизма внимания до O(NK), где K — это количество прототипов на каждом слое. ACT может заменить стандартный модуль с механизмом внимания в DETR без потери в качестве предсказаний предобученной DETR модели. Предложенная архитектура достигает баланса между точностью предсказаний и вычислительной затратностью обучения и инференса в FLOPs.

Визуализация составных частей энкодера модели
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt