Датасет для распознавания текста дорожных знаков с видеозаписи

RoadText-1K — это датасет для распознавания текста дорожных знаков с видеозаписей. Датасет в 20 раз больше, чем самый крупный существующий датасет для текста в видео. Данные состоят из 1000 видеозаписей, снятых во время езды по дороге. Для каждой видеозаписи доступна разметка текста вместе с границами надписи и транскриптом. Номерные знаки на видеозаписях размечены отдельно. Это позволяет использовать датасет также и для задачи распознавания номерных знаков. Доступ к датасету можно получить по ссылке.

Проблема существующих датасетов

Распознавание текста является ключевым для понимания семантики сцены на улице. Оценка семантики сцены актуальна для виртуальных ассисентов водителя или беспилотных автомобилей. Большинство существующих датасетов по распознаванию текста состоят из статичных изображений. Кроме того, они составлялись так, что бы текст был виден полностью и не перекрывался, что облегчает задачу для нейросети, но вносит ограничение в реальное использование моделей, которые были обучены на таких чистых данных.

Примеры кадров из датасета

Подробнее про датасет

Десятисекундные видео в датасете семплировали из датасета BDD100K. BDD100K состоит из 100 тысяч видеозаписей, снятых во время езды на машине. 

Примеры разных типов надписей в датасете: английские, неразборчивые и неанглийские

Английские надписи составляют более 65% надписей во всем датасете. В то время как неанглийские — 28%.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt