Библиотека моделей обработки языка PyText от FAIR теперь доступна open source

Команда FAIR открыла исходный код PyTextбиблиотеки для создания моделей обработки естественного языка. Социальная сеть ежедневно применяет модели, разработанные с помощью фреймворка, для работы с миллиардами прогнозов.

PyText позволил повысить точность диалоговых моделей на 10%. «Мы планируем использовать PyText в качестве нашей основной платформы NLP», —  отмечают разработчики в блоге FAIR. На PyText уже основана технология распознавания голосовых команд и работа «умного» ассистента в Messenger.

Возможности PyText

Платформа построена на PyTorch 1.0 и позволяет работать с ONNX для конвертирования моделей и движком Caffe2 для экспорта.

Фреймворк можно использовать для классификации документов, разметки речевой последовательности, семантического анализа, моделирования и других задач. Среди преимуществ PyText:

  • доступ к готовому набору архитектур и моделей обработки языка, которые используют контекст для более точного определения сути высказываний и правильного перевода;
  • возможность использования готовых NLP-моделей и инструментов PyTorch;
  • возможность работы с несколькими моделями одновременно;
  • ускорение работы: при распределенном обучении на нескольких серверах и кластерах GPU, PyText сокращает время обучения моделей в 3-5 раз.
В примере кода показано, как экспортировать модель в Caffe2 с помощью ONNX, добавить string2id и затем выполнить любую необходимую постобработку

В ближайшие планы разработчиков входит работа по упрощению отладки моделей и дополнительная оптимизация для распределенного обучения.

Код PyText доступен на GitHub. Подробная статья с описанием особенностей работы библиотеки опубликована здесь.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии