DSNet: нейросеть предсказывает количество людей на изображении

DSNet — это end-to-end нейросеть, которая определяет количество людей на снимке. Подход обходит существующие решения на 4-х задачах: ShanghaiTech, UCF-QNRF, UCF CC 50 и UCSD. Результаты экспериментов показывают, что DSNet дает результаты на 20-30% выше state-of-the-art подходов.

Задача определения количества людей на снимке уже решалась в компьютерном зрении. Предыдущие подходы адаптировали multi-column CNN или стандартную CNN для решения. Недостаток предыдущих подходов в том, что эти методы захватывают только часть масштабов изображения. Ключевым компонентом DSNet является плотный расширенный сверточный блок (DDCB). Такой блок позволяет сохранять информацию с разных частей изображения. Исследователи предлагают новую функцию потерь (consistency loss). Эта функция потерь поддерживает глобальную и локальную однородность между предсказанными тепловыми картами и реальными.

Что внутри DSNet

На вход нейросети подается изображение. На выходе модель генерирует тепловую карту с выделенными зонами расположения людей и оценку количества людей на снимке.

DSNet состоит из трех компонентов:

базовой нейросети, которая извлекает характеристики из изображения — первые десять слоев VGG-16;
трех блоков DDCB c dense residual связями (DRC), чтобы увеличить разнообразие масштабов изображения и задействовать большее количество разнообразных характеристик изображения;
трех сверточных слоев для генерации тепловых карт

Оценка работы нейросети

Исследователи оценили работу DSNet по сравнению с state-of-the-art подходами для решения задачи определения количества людей на изображении. Для проверки использовались 4 датасета: ShanghaiTech, UCF-QNRF, UCF CC 50 и UCSD. В качестве метрик точности моделей были использованы адаптированные MAE и MSE. Все результаты конкурирующих методов собирались из соответствующих исследований.

Ниже видно, что DSNet по результатам превосходит остальные подходы. Нейросеть улучшает результаты state-of-the-art моделей на 20-30%.