PP-OCR: легковесная нейросеть для распознавания знаков

Исследователи из Baidu предложили нейросетевую модель для задачи распознавания символов на изображении (OCR).

Архитектура подхода

Архитектура PP-OCR основана на легковесных нейросетях, которые были улучшены. Предложенный фреймворк состоит из трёх шагов: детектирование границ текста, исправление угла текста и распознавание текста. Все три модуля используют легковесные базовые сети для ускорения работы. Это позволяет использовать обученные модели в встраиваемых устройствах.

Визуализация работы фреймворка

Первый модуль использует детектор текста, который основан на модели сегментации. Цель модели — детектировать и разметить место расположения текста на изображении. На втором этапе к части изображения с текстом применяется геометрическая трансформация, чтобы выровнять текст. На финальном шаге сверточная рекуррентная сеть распознает текст. Исследователи используют квантизацию, learning rate warm-up и прунинг, чтобы оптимизировать размер сети и её работу.

Данные для обучения

Исследователи собрали данные для китайского и английского языков. Всего — три маленьких датасета, которые объединяются в один большой:

  • 97 тысяч изображений для детектирования текста на изображении;
  • Датасет для классификации направления текста из 600 тысяч изображений;
  • 17.9 миллионов изображений для задачи распознавания текста
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt