fbpx
  • TextFlint: библиотека для анализа устойчивости NLP-моделей

    TextFlint – мультиязычная, многозадачная платформа для анализа устойчивости NLP-моделей. В открытом доступе для английского и китайского языков, другие языки разрабатываются. Включает инструменты обработки текста: 

    • общие и специфические преобразования текста;
    • выделение подмножеств;
    • преобразование текста для состязательных атак;
    • комбинации перечисленного.

    Зачем это нужно

    Генерализация NLP-моделей необходима для обеспечения устойчивости и стабильных показателей не только на тестовых, но и на произвольных данных. Модели, обученные на не исчерпывающих датасетах, повторяют неполноту данных. К тому же, глубокие нейронные сети уязвимы для состязательных атак на тщательно подобранных примерах.

    Чтобы проверить полезность TextFlint, авторы протестовали более 67000  современных моделей глубокого обучения, моделей классического обучения с учителем и действующих систем.  Почти все модели показали значительное снижение производительности. Точность прогнозов BERT для распознавания настроения текста, распознавания именованных сущностей и логического вывода на естественном языке была снижена более чем на 50%. Цель авторов – предоставить разработчикам удобный и автоматизированный инструмент для создания устойчивых NLP-моделей.

    Особенности TextFlint

    Полное покрытие преобразований текста. TextFlint применяет 20 общих преобразований, 8 выделений подмножества и 60 специфических преобразований, а также тысячи их комбинаций. Поддерживается преобразование текста для состязательной атаки на конкретную модель.

    Генерация размеченных аугментированных данных. TextFlint поддерживает преобразование произвольных текстов с генерацией соответствующих лейблов. Доступны для загрузки 6903 датасета, сгенерированных преобразованием 24 известных датасетов для задач NLP.

    Полный аналитический отчет. TextFlint предоставляет отчет об анализе лексики, синтаксиса и семантики модели с указанием недостатков. Оценивается, насколько выход модели лингвистически согласован и приемлем для человека.  На основании выявленных дефектов TextFlint генерирует большое количество данных для дообучения модели.

    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии