Ecco — это библиотека для визуализации обученных Transformer-моделей. Библиотека позволяет визуализировать важность каждого прошлого слова при предсказании текущего и активации нейронов в модели.
Transformer-модели в обработке естественного языка
Архитектура Transformer является основой текущих state-of-the-art моделей в NLP. Предобученные языковые модели, базирующиеся на Transformer, могут быть авторегрессионными (используют выход модели с прошлого шага на входе текущего шага) и обучаться восстанавливать замаскированные токены входной последовательности. Несмотря на успехи таких моделей в решении задач обработки естественного языка, на данный момент их предсказания плохо интерпрепретируемы. Ecco решает задачу поиска причины, почему модель приняла какое-то решение.
Подробнее про библиотеку
Функционал Ecco позволяет визуализировать два аспекта обученной модели:
- Важность каждого предыдущего токена последовательности для предсказания текущего токена;
- Активации нейронов и как отдельные нейроны и группы нейронов изменяются в зависимости от входных токенов и предсказываемых токенов
Кроме того, Ecco позволяет отслеживать изменения скрытых состояний модели, чтобы проанализировать роль отдельного слоя модели. Создатель библиотеки опубликовал Jupyter ноутбуки с примерами использования библиотеки.