YOLOv5: state-of-the-art модель для распознавания объектов

YOLOv5 — обновленная версия YOLO, state-of-the-art модели для распознавания объектов в реальном времени. YOLOv5 выдает предсказания со скоростью 140 кадров в секунду.

Эволюция YOLO моделей

YOLO (You Only Look Once) — это семейство моделей, которые стали популярны благодаря легковесности и качеству предсказаний. Такие характеристики позволяю использовать YOLO для задач распознавания объектов в реальном времени и на портативных устройствах.

Сравнение YOLO моделей с state-of-the-art

YOLOv2 и YOLOv3 версии YOLO последовательно улучшали качество и скорость предсказаний. В апреле 2020 представили четвертую версию модели YOLOv4. Улучшению качества YOLOv4 способствовали изменения в аугментации данных и архитектуре модлеи.

Чем отличается YOLOv5

Релиз YOLOv5 включается в себя 5 моделей разных размеров: YOLOv5s (самая маленькая), YOLOv5m, YOLOv5l, YOLOv5x (самая большая).

YOLOv5 — это первая модель из семейства YOLO, которую писали на PyTorch. Предыдущие модели были написаны на Darknet, фреймворке создателя архитектуры. Darknet проигрывает PyTorch в контексте производительности и возможностям конфигурации моделей. Имплементация модели на PyTorch позволяет пользоваться преимуществами фреймворка: поддержка и деплой модели.

В Colab ноутбуке с Tesla P100 YOLOv5 модель выдает предсказания на инференсе со скоростью 0.007 секунд за изображение. Это равноценно 140 кадрам в секунду. Для сравнения YOLOv4 работает на инференсе со скоростью 50 кадров в секунду.

По результатам тестирования на датасете BCCD, модель выдает предсказания с 0.895 mAP после обучения за 100 эпох. При этом веса модели весят около 27 мегабайт. У YOLOv4 файл с весами весит 244 мегабайта. YOLOv5 меньше, чем YOLOv4, примерно на 90%.