LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов

agentwrite

LongWriter — открытый фреймворк и набор больших языковых моделей (LLMs) для генерации связных и релевантных ответов, превышающих 10 000 слов. Longwriter использует пайплайн AgentWrite, который разбивает задачу генерации длинных текстов на подзадачи, что позволяет достичь нового уровня согласованности в текстах большого объема. Исследователи представили модели LongWriter 8B, 9B и LongWriter-9B-DPO, которые показывают сравнимые результаты с Claude 3.5 и GPT-4.

Хотя Claude 3.5 и GPT-4, могут обрабатывать до 100 000 токенов на входе, объем связного выходного текста обычно значительно меньше. Практический предел окна контекста на выходе составляет около 10 000–20 000 слов (примерно 20 000–40 000 токенов), в зависимости от модели и сложности задачи, что приводит к повторениям или отклонению от темы. Таким образом, несмотря на возможность работы с большими объемами входных данных, эффективный предел окна контекста для качественного ответа гораздо меньше.

Небольшие модели LongWriter достигают практической границы окна ответа 20 000 слов — это около 80 страниц текста. Это стало возможным благодаря методам аугментации данных и усовершенствованному управлению контекстом.

length

Конвейер AgentWrite

Для преодоления ограничений, с которыми сталкиваются LLM при генерации длинных текстов, команда LongWriter разработала AgentWrite — пайплайн агентов, разбивающий длинные задачи на управляемые подзадачи. Этот пайплайн создает детализированные планы, опираясь на запросы пользователя, определяет структуру и целевое количество слов для каждой части текста. Затем модель поэтапно генерирует каждую часть, что позволяет достигать связности и согласованности даже при объемах, превышающих 20 000 слов.
agentwrite

Набор данных LongWriter-6k

Команда разработала LongWriter-6k dataset — набор данных, включающий тексты объемом от 2 000 до 32 000 слов. Этот расширенный набор данных был интегрирован в процесс обучения. Благодаря обучению на таком наборе данных LongWriter позволяет моделям LLM увеличивать окно контекста и не ронять качество ответов объемом свыше 10 000 слов.

Модели LongWriter

LongWriter опирается на проверенные архитектуры крупных языковых моделей, адаптируя и оптимизируя их для генерации сверхдлинных текстов. Эти модели были специально разработаны для эффективной работы с большими объемами данных при сохранении высокой связности и релевантности.

  • LongWriter-9B: Основан на модели GLM-4-9B от Tsinghua University, специально адаптированной для задач с длинным контекстом и 9 миллиардами параметров;
  • LongWriter-8B: Производная от Llama-3.1-8B от Meta AI, оптимизированная для генерации расширенного текста с 8 миллиардами параметров;
  • LongWriter-9B-DPO: Улучшенная версия LongWriter-9B, использующая Direct Preference Optimization (DPO) для повышения качества и согласованности в сверхдлинных выводах.

Результаты

Производительность LongWriter была протестирована с помощью открытого бенчмарка LongBench-Write, специально разработанного исследователями для проверки моделей на задачи с разной длиной вывода — от 500 до более чем 4 000 слов. Модель LongWriter с 9 миллиардами параметров превосходит по показателям более крупные проприетарные модели в задачах на генерацию длинных текстов.

longwrite results

Результаты показывают, что LongWriter демонстрирует высокую эффективность при генерации длинных текстов, обеспечивая связность и логичную структуру контента. Процесс AgentWrite еще больше улучшает производительность, разбивая задачи на более мелкие секции, что позволяет поддерживать ясность и согласованность на протяжении всего текста.

Будущее LongWriter

LongWriter устанавливает новый стандарт в генерации длинных текстов с использованием ИИ. В будущем разработчики планируют расширить окно контекста до 100 000 слов и улучшить качество генерации за счет совершенствования набора данных. Эти достижения делают LongWriter ключевым инструментом для отраслей, где требуется качественный, генерируемый ИИ, длинный контент.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt