fbpx
  • CSTR: нейросеть распознает текст на изображениях сцены

    CSTR — это сверточная нейросеть, которая распознает текст на изображениях сцены. Превалирующая часть предыдущих работ рассматривает задачу распознавания текста на изображении сцены как задачу сегментации и seq2seq. Предложенная модель решает задачу распознавания текста как задачу классификации изображений. По результатам экспериментов на 6 датасетах, модель выдает сравнимые с state-of-the-art подходами результаты. Код проекта доступен в открытом репозитории на GitHub.

    Подробнее про структуру модели

    CSTR состоит из набора сверточных слоев и слоя глобального усредненного пулинга (global average pooling layer) в конце. За слоем пулинга следуют модули для мультиклассовой классификации, каждый из которых предсказывает соответствующую букву из текстовой последовательности на входном изображении. 

    В качестве функционала ошибки CSTR используют параллельную кросс-энтропию. Архитектура CSTR сравнима по легкости имплементации с моделями классификации изображений, как ResNet. 

    Тестирование модели

    Работу модели тестировали на датасетах ICDAR 2003 (IC03), ICDAR 2013 (IC13), ICDAR 2015 (IC15), IIIT 5K-Words (IIIT5k), Street View Text (SVT) и Street View Text-Perspective (SVTP). Все датасеты состояли из изображений сцен, на которых были вывески с текстом латиницей. Ниже видны результаты тестирования.

    Сравнение CSTR с альтернативными подходами
    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии