CSTR: нейросеть распознает текст на изображениях сцены

CSTR — это сверточная нейросеть, которая распознает текст на изображениях сцены. Превалирующая часть предыдущих работ рассматривает задачу распознавания текста на изображении сцены как задачу сегментации и seq2seq. Предложенная модель решает задачу распознавания текста как задачу классификации изображений. По результатам экспериментов на 6 датасетах, модель выдает сравнимые с state-of-the-art подходами результаты. Код проекта доступен в открытом репозитории на GitHub.

Подробнее про структуру модели

CSTR состоит из набора сверточных слоев и слоя глобального усредненного пулинга (global average pooling layer) в конце. За слоем пулинга следуют модули для мультиклассовой классификации, каждый из которых предсказывает соответствующую букву из текстовой последовательности на входном изображении.

В качестве функционала ошибки CSTR используют параллельную кросс-энтропию. Архитектура CSTR сравнима по легкости имплементации с моделями классификации изображений, как ResNet.

Тестирование модели

Работу модели тестировали на датасетах ICDAR 2003 (IC03), ICDAR 2013 (IC13), ICDAR 2015 (IC15), IIIT 5K-Words (IIIT5k), Street View Text (SVT) и Street View Text-Perspective (SVTP). Все датасеты состояли из изображений сцен, на которых были вывески с текстом латиницей. Ниже видны результаты тестирования.

Сравнение CSTR с альтернативными подходами

CNN NLP

Подробнее про структуру модели

Тестирование модели

Читайте также