LaserTagger: state-of-the-art модель для генерации текста от Google AI

LaserTagger — это нейросетевая модель для генерации текста, которая размечает входную последовательность. Нейросеть рассматривает задачу генерации текста как задачу редактирования текста. Целевые тексты восстанавливаются из входных текстов с помощью трех операций редактирования: оставить токен, удалить токен и добавить фразу до токена. LaserTagger предсказывает, какие операции необходимо провести на входном тексте, чтобы восстановить целевую последовательность.

Модель комбинирует в себе энкодер из BERT с авторегрессионным декодером из архитектуры трансформера. Исследователи оценили нейросеть на четырех задачах: объединение предложений (sentence fusion), разбиение на предложения (sentence splitting), абстрактивная суммаризация и корректирование грамматики. LaserTagger обошел state-of-the-art модели на трех из четырех задачах. Нейросеть в особенности подходит для случаев, когда данные для обучения ограничены в размере. Кроме того, на инференсе модель в два раза быстрее, чем сравнимые seq2seq подходы.

Описание проблемы

Sequence-to-sequence (seq2seq) модели популярны для задач машинного перевода и генерации текста. Несмотря на это, у текущих моделей есть ряд ограничений, которые варьируются в зависимости от задачи:

Генерация последовательностей, которые не связаны с входным текстом (галлюцинации);
Необходимость в обучающих выборках большого размера, чтобы модель генерировала связный текст;
Низкая скорость моделей на инференсе, что связано с тем, что они генерируют последовательность токен за токеном

LaserTagger справляется с последним ограничением так, что итоговая последовательность генерируется на основе операций с входной последовательностью. Такой подход позволяет сократить время, которое модель тратит на выдачу целевой последовательности.

Что внутри LaserTagger

Отличительной характеристикой большинства задач генерации текста является схожесть входной и целевой последовательностей. LaserTagger использует эту характеристику в своей архитектуре. Энкодер модели заимствовали у BERT. Он состоит из 12 слоев. Декодер модели, в свою очередь, взяли из Transformer архитектуры.

LaserTagger architecture — Визуализация архитектуры нейросети

Тестирование работы модели

Исследователи сравнили LaserTagger с seq2seq моделью, основанной на BERT, и с Transformer. Для случаев, когда количество обучающих данных ограничено, LaserTagger обходит seq2seq модель.