Исследователи из AllenNLP опубликовали фреймворк для интерпретации моделей для обработки естественного языка. Interpret в интерактивном режиме выделяет смещения в модели; ищет правила, по которым модель выдает предсказания; диагностирует ошибки модели.
Несмотря на постоянные улучшения в state-of-the-art моделей для обработки естественного языка, у моделей есть недостатки. Эти недостатки вместе с неинтерпретируемостью нейросетей усложняют оценку потенциальных рисков использования модели в бизнесе. Interpret позволяет использовать saliency карты, основанные на градиентах. Saliency карты, например, показывают части предсказанного текста, которые внесли больший вклад в предсказание. Обычно такие карты визуализируются в формате тепловой карты.
Функционал фреймворка
AllenNLP interpret состоит из трех частей: набор методов интерпретации, которые подходят для большинства моделей; API для разработки новых методов интерпретации; фронтенд-обертка для визуализации результатов интерпретации.
Фреймворк можно использовать в нескольких случаях:
- Выявление смещений (biases) в моделях: модель для решения задачи SQuAD полагается на лексическое совпадение между словами в вопросе и в тексте;
- Поиск решающих правил модели: модель для распознавания именованных сущностей предсказывает тег расположения там, где видит фразу “in downtown”;
- Распознавание ошибок: модель разметки сентиментов в тексте неверно предсказывает позитивный сентимент триграмме “tony hawk style”
Что уже сейчас доступно
На данный момент фреймворк способен интерпретировать 6 задач, которые покрывают разнообразные форматы входных и выходных данных:
- Модель для понимания прочитанного (Reading Comprehension) с использованием SQuAD и DROP датасетов: исследователи используют NAQANet и BiDAF модели;
- Языковое моделирование с использование трансформер архитектур BERT и RoBERTa
- Текстовая классификация и объединение частей текста (Textual Entailment) с использованием BiLSTM и классификаторов с механизмом self-attention;
- Распознавание именованных сущностей (NER) и распознавание кореференций (Coreference Resolution)
В открытом доступе лежат тьюториалы для интерпретации любой выбранной модели и для добавления новых методов интерпретации.