fbpx
  • Библиотека моделей обработки языка PyText от Facebook теперь доступна open source

    Команда Facebook AI Research открыла исходный код PyTextбиблиотеки для создания моделей обработки естественного языка. Социальная сеть ежедневно применяет модели, разработанные с помощью фреймворка, для работы с миллиардами прогнозов.

    PyText позволил повысить точность диалоговых моделей Facebook на 10%. «Мы планируем использовать PyText в качестве нашей основной платформы NLP», —  отмечают разработчики в блоге Facebook AI. На PyText уже основана технология распознавания голосовых команд в Facebook Portal и работа «умного» ассистента в Facebook Messenger.

    Возможности PyText

    Платформа построена на PyTorch 1.0 и позволяет работать с ONNX для конвертирования моделей и движком Caffe2 для экспорта.

    Фреймворк можно использовать для классификации документов, разметки речевой последовательности, семантического анализа, моделирования и других задач. Среди преимуществ PyText:

    • доступ к готовому набору архитектур и моделей обработки языка, которые используют контекст для более точного определения сути высказываний и правильного перевода;
    • возможность использования готовых NLP-моделей и инструментов PyTorch;
    • возможность работы с несколькими моделями одновременно;
    • ускорение работы: при распределенном обучении на нескольких серверах и кластерах GPU, PyText сокращает время обучения моделей в 3-5 раз.
    В примере кода показано, как экспортировать модель в Caffe2 с помощью ONNX, добавить string2id и затем выполнить любую необходимую постобработку

    В ближайшие планы разработчиков входит работа по упрощению отладки моделей и дополнительная оптимизация для распределенного обучения.

    Код PyText доступен на GitHub. Подробная статья с описанием особенностей работы библиотеки опубликована здесь.