Датасет для распознавания текста дорожных знаков с видеозаписи

RoadText-1K — это датасет для распознавания текста дорожных знаков с видеозаписей. Датасет в 20 раз больше, чем самый крупный существующий датасет для текста в видео. Данные состоят из 1000 видеозаписей, снятых во время езды по дороге. Для каждой видеозаписи доступна разметка текста вместе с границами надписи и транскриптом. Номерные знаки на видеозаписях размечены отдельно. Это позволяет использовать датасет также и для задачи распознавания номерных знаков. Доступ к датасету можно получить по ссылке.

Проблема существующих датасетов

Распознавание текста является ключевым для понимания семантики сцены на улице. Оценка семантики сцены актуальна для виртуальных ассисентов водителя или беспилотных автомобилей. Большинство существующих датасетов по распознаванию текста состоят из статичных изображений. Кроме того, они составлялись так, что бы текст был виден полностью и не перекрывался, что облегчает задачу для нейросети, но вносит ограничение в реальное использование моделей, которые были обучены на таких чистых данных.