AllenNLP Interpret: фреймворка для интерпретации NLP-моделей

Исследователи из AllenNLP опубликовали фреймворк для интерпретации моделей для обработки естественного языка. Interpret в интерактивном режиме выделяет смещения в модели; ищет правила, по которым модель выдает предсказания; диагностирует ошибки модели.

Несмотря на постоянные улучшения в state-of-the-art моделей для обработки естественного языка, у моделей есть недостатки. Эти недостатки вместе с неинтерпретируемостью нейросетей усложняют оценку потенциальных рисков использования модели в бизнесе. Interpret позволяет использовать saliency карты, основанные на градиентах. Saliency карты, например, показывают части предсказанного текста, которые внесли больший вклад в предсказание. Обычно такие карты визуализируются в формате тепловой карты.

Функционал фреймворка

AllenNLP interpret состоит из трех частей: набор методов интерпретации, которые подходят для большинства моделей; API для разработки новых методов интерпретации; фронтенд-обертка для визуализации результатов интерпретации.

Фреймворк можно использовать в нескольких случаях:

Выявление смещений (biases) в моделях: модель для решения задачи SQuAD полагается на лексическое совпадение между словами в вопросе и в тексте;
Поиск решающих правил модели: модель для распознавания именованных сущностей предсказывает тег расположения там, где видит фразу “in downtown”;
Распознавание ошибок: модель разметки сентиментов в тексте неверно предсказывает позитивный сентимент триграмме “tony hawk style”

Что уже сейчас доступно

На данный момент фреймворк способен интерпретировать 6 задач, которые покрывают разнообразные форматы входных и выходных данных:

Модель для понимания прочитанного (Reading Comprehension) с использованием SQuAD и DROP датасетов: исследователи используют NAQANet и BiDAF модели;
Языковое моделирование с использование трансформер архитектур BERT и RoBERTa
Текстовая классификация и объединение частей текста (Textual Entailment) с использованием BiLSTM и классификаторов с механизмом self-attention;
Распознавание именованных сущностей (NER) и распознавание кореференций (Coreference Resolution)

В открытом доступе лежат тьюториалы для интерпретации любой выбранной модели и для добавления новых методов интерпретации.

Обработка естественного языка