fbpx
  • DSNet: нейросеть предсказывает количество людей на изображении

    DSNet — это end-to-end нейросеть, которая определяет количество людей на снимке. Подход обходит существующие решения на 4-х задачах: ShanghaiTech, UCF-QNRF, UCF CC 50 и UCSD. Результаты экспериментов показывают, что DSNet дает результаты на 20-30% выше state-of-the-art подходов.

    Задача определения количества людей на снимке уже решалась в компьютерном зрении. Предыдущие подходы адаптировали multi-column CNN или стандартную CNN для решения. Недостаток предыдущих подходов в том, что эти методы захватывают только часть масштабов изображения. Ключевым компонентом DSNet является плотный расширенный сверточный блок (DDCB). Такой блок позволяет сохранять информацию с разных частей изображения. Исследователи предлагают новую функцию потерь (consistency loss). Эта функция потерь поддерживает глобальную и локальную однородность между предсказанными тепловыми картами и реальными.

    Что внутри DSNet 

    На вход нейросети подается изображение. На выходе модель генерирует тепловую карту с выделенными зонами расположения людей и оценку количества людей на снимке.

    DSNet состоит из трех компонентов:

    • базовой нейросети, которая извлекает характеристики из изображения — первые десять слоев VGG-16;
    • трех блоков DDCB c dense residual связями (DRC), чтобы увеличить разнообразие масштабов изображения и задействовать большее количество разнообразных характеристик изображения;
    • трех сверточных слоев для генерации тепловых карт 
    Составные компоненты модели

    Оценка работы нейросети

    Исследователи оценили работу DSNet по сравнению с state-of-the-art подходами для решения задачи определения количества людей на изображении. Для проверки использовались 4 датасета: ShanghaiTech, UCF-QNRF, UCF CC 50 и UCSD. В качестве метрик точности моделей были использованы адаптированные MAE и MSE. Все результаты конкурирующих методов собирались из соответствующих исследований.

    Ниже видно, что DSNet по результатам превосходит остальные подходы. Нейросеть улучшает результаты state-of-the-art моделей на 20-30%.

    Количественная оценка работы DSNet и конкурирующих подходов на 4-х задачах
    Вручную отобранные примеры работы модели. Первая строка — входные изображения, вторая — предсказанная DSNet тепловая карта с людьми, третья — реальная тепловая карта