DSNet — это end-to-end нейросеть, которая определяет количество людей на снимке. Подход обходит существующие решения на 4-х задачах: ShanghaiTech, UCF-QNRF, UCF CC 50 и UCSD. Результаты экспериментов показывают, что DSNet дает результаты на 20-30% выше state-of-the-art подходов.
Задача определения количества людей на снимке уже решалась в компьютерном зрении. Предыдущие подходы адаптировали multi-column CNN или стандартную CNN для решения. Недостаток предыдущих подходов в том, что эти методы захватывают только часть масштабов изображения. Ключевым компонентом DSNet является плотный расширенный сверточный блок (DDCB). Такой блок позволяет сохранять информацию с разных частей изображения. Исследователи предлагают новую функцию потерь (consistency loss). Эта функция потерь поддерживает глобальную и локальную однородность между предсказанными тепловыми картами и реальными.
Что внутри DSNet
На вход нейросети подается изображение. На выходе модель генерирует тепловую карту с выделенными зонами расположения людей и оценку количества людей на снимке.
DSNet состоит из трех компонентов:
- базовой нейросети, которая извлекает характеристики из изображения — первые десять слоев VGG-16;
- трех блоков DDCB c dense residual связями (DRC), чтобы увеличить разнообразие масштабов изображения и задействовать большее количество разнообразных характеристик изображения;
- трех сверточных слоев для генерации тепловых карт
Оценка работы нейросети
Исследователи оценили работу DSNet по сравнению с state-of-the-art подходами для решения задачи определения количества людей на изображении. Для проверки использовались 4 датасета: ShanghaiTech, UCF-QNRF, UCF CC 50 и UCSD. В качестве метрик точности моделей были использованы адаптированные MAE и MSE. Все результаты конкурирующих методов собирались из соответствующих исследований.
Ниже видно, что DSNet по результатам превосходит остальные подходы. Нейросеть улучшает результаты state-of-the-art моделей на 20-30%.