NVIDIA обучили нейросеть (STEAL), которая делает размеченные границы объектов более точными. STEAL работает поверх любой архитектуры по семантической сегментации объектов. В экспериментах нейросеть обходит state-of-the-art методы на 4% по MF метрике и на 18% по AP метрике.
Одна из основных проблем в обучении моделей для задач компьютерного зрения — шумы и неточности в размеченных данных. STEAL борется с неточностью границ размеченных объектов. Существующие датасеты по семантической разметке содержат шумную разметку. Точная разметка объектов — ресурсоемкий процесс. Фактически STEAL включает в себя дополнительный слой к любому семантическому детектору и функцию потерь. Компоненты подхода отвечают за улучшение точности предсказанных границ.
Архитектура STEAL
Semantically Thinned Edge Alignment Learning (STEAL) состоит из двух компонентов:
- слой, который отвечает за утончение границ (thinning layer);
- функция потерь, которая оптимизирует точность и тонкость границ объектов (NMS loss)
Исследователи также предлагают подход, который совместно учится предсказывать границы объектов и подгонять шумные размеченные границы к реальным границам. Последнее относится к active alignment части архитектуры. STEAL работает поверх любой базовой CNN архитектуры.
Слой утончения границ работает поверх предсказанных границ посредством вычисления 5 направлений, в которых существуют границы. Поверх направлений используется софтмакс, который помогает повысить точность пикселей границ. Во время обучения реальные границы итеративно улучшаются с помощью предсказаний на этапе active alignment. NMS функция потерь и функция потерь для направления границ применяются только к улучшенным границам, которые получились на выходе active alignment.
Результаты экспериментов
В качестве state-of-the-art метода для сравнения исследователи выбрали CASENet. Метрики — MF (максимальная F-мера) и AP (Average Precision). Вариации модели выступали лучше, чем CASENet.