fbpx
  • Нейросеть извлекает структурированную информацию из документов

    Google AI опубликовали нейросеть, которая извлекает структурированную информацию из шаблонных документов. В отличие от предыдущих подходов, модель использует знание о типах целевой информации, чтобы отобрать и проранжировать распознанные части текста в документе. Эксперименты на корпусах счетов и чеков показывают, что нейросеть генерализуется на типы документов, на которых не обучалась.

    В чем проблема

    Шаблонные документы, как чеки, счета и страховые квоты, имеют множество разных применений в бизнес-сфере. На данный момент обработка таких документов по большей части основывается на ручном труде. При этом существующие автоматизированные системы строятся на эвристиках, которые неустойчивы к ошибкам и расхождениям в формате документов. Исследователи предлагают нейросетевой подход для извлечения информации из шаблонных документов.

    Как работает модель

    Предложенный подход позволяет разработчикам обучить и задеплоить систему по извлечению данных из документов определенного типа. Модель принимает на вход целевую схему, в которой содержится список полей для извлечения и их типы, и маленький набор размеченных документов. 

    Модель извлекает данные следующих типов: даты, числа, цифро-буквенные коды, число со знаком валюты, телефонные номера и ссылки. Входной документ сначала проходит через сервис по распознаванию знаков (OCR). На этом этапе документ из формата PDF или изображения переводится в текстовый формат. Полученный текст прогоняется через генератор кандидатов, который отбирает потенциально нужные части текста. Кандидаты затем ранжируются с помощью нейросеть.  

    Оценка работы модели

    Для обучения и проверки исследователи использовали датасет со счетами разных форматов. Тестировали систему на документах того формата, который модель ранее не видела. 

    F-мера модели на задаче распознавания данных разного типа