CenterTrack: state-of-the-art нейросеть для отслеживания объектов на видеозаписи

CenterTrack — это модель для отслеживания объектов на видеозаписи. Нейросеть принимает на вход текущий кадр, прошлый кадр и тепловую карту с предсказаниями для прошлого кадра. На выходе модель выдает границы объектов для текущего кадра и соотносит их с объектами с прошлого кадра. В случае если для обучения недоступны видеоданные, CenterTrack позволяет обучаться на датасетах с изображениями. Предложенный подход масштабируется на задачи 3D трекинга объектов, multi-category трекинга и трекинга позы человека. CenterTrack выдал state-of-the-art результаты на датасетах MOT17, KITTI и nuScenes.

Задача отслеживания традиционно рассматривается как следование за интересующими точками в пространстве и времени. Текущие нейросетевые модели подходят к задаче отслеживания объектов через ассоциации во времени (tracking-by-detection). Исследователи предлагают подход, который проще, быстрее и более точно предсказывает границы объектов и ассоциации между объектами, чем state-of-the-art. CenterTrack отслеживает объекты через отслеживание их центров. Модель выучивает смещение в 2D пространстве между двумя кадрами. Затем она предсказывает ассоциации между объектами с разных кадров на основе этого смещения.

Что внутри модели

Нейросеть принимает на вход два кадра (текущий и предыдущий) и предсказания для прошлого кадра. На основе этих данных модель распознает точки объектов на текущем кадре и соотносит с предсказанными точками для прошлого кадра. Архитектура CenterTrack основывается на модели CenterNet.

Результаты работы CenterTrack

Исследователи сравнили CenterTrack с другими моделями движения на датасетах MOT17, KITTI и nuScenes. Ниже видно, что выдает сравнимые или выше результаты, чем альтернативные подходы.