WebWeaver — открытый фреймворк для глубоких исследований преводсходит OpenAI DeepResearch, Gemini Deep Research на бенчмарках

Tongyi-DeepResearch-30B-A3B results webweaver deepresearch

Исследователи из Tongyi Lab (Alibaba Group) представили WebWeaver — открытый двухагентный фреймворк для глубоких исследований, который симулирует человеческий исследовательский процесс. Фреймворк состоит из планировщика, который итеративно чередует веб-поиск источников и оптимизирует структуру финального отчета, и генератора контента, выполняющего иерархический синтез с целевым извлечением релевантных материалов. WebWeaver достигает state-of-the-art производительности на трех бенчмарках: DeepResearch Bench, DeepConsult и DeepResearchGym, превосходя как проприетарные системы (OpenAI DeepResearch, Gemini Deep Research), так и решения с открытым исходным кодом. Модель Tongyi-DeepResearch-30B-A3B, дообученная с помощью WebWeaver модель Qwen3-30b-a3b-Instruct, и веса доступны на Github и HuggingFace под открытой лицензией.

Существующие подходы к открытым глубоким исследованиям страдают от двух критических ограничений. Первый — подход «поиск-затем-генерация», где агент собирает всю информацию перед генерацией отчета, что приводит к низкокачественным результатам без направляющей структуры. Второй подход генерирует статический план заранее, затем выполняет целевой поиск для каждой секции. Однако фиксированная структура опирается исключительно на внутренние знания большой языковой модели и препятствует исследованию в тех областях, где внутренних знаний модели недостаточно.

webweaver framework — Сравнение парадигм: (a) поиск-затем-генерация, (b) поиск по заданной структуре, (c) WebWeaver с динамической оптимизацией

Дополнительная проблема — подача всех собранных материалов в единый контекст для финальной генерации. Это приводит к известным проблемам длинного контекста: потери информации в середине контекста, галлюцинациям и снижению точности. WebWeaver решает эти проблемы через человекоцентричный подход с динамической оптимизацией структуры и иерархической генерацией.

Архитектура WebWeaver

Фреймворк состоит из двух специализированных агентов. Планировщик (planner) работает в динамическом исследовательском цикле, итеративно чередуя сбор данных через веб-поиск с оптимизацией структуры отчета. Результат этой фазы — не просто коллекция источников, а комплексная структура с явными цитатами, связывающими каждую секцию с банком памяти источников.

webweaver pipeline — Пайплайн WebWeaver: планировщик итеративно собирает доказательства и оптимизирует структуру, генератор контента выполняет иерархическую генерацию

При сборе данных планировщик использует двухэтапную фильтрацию: сначала языковая модель выбирает релевантные URL на основе заголовков и фрагментов, затем для каждой страницы извлекаются релевантное резюме (для контекста планировщика) и детальная аргументация (для банка памяти). Оптимизация структуры происходит непрерывно — планировщик расширяет секции, добавляет подразделы и реструктурирует план на основе новой информации.

Генератор контента (writer) выполняет синтез с опорой на банк памяти. Для каждой секции плана он извлекает только релевантные доказательства из банка памяти по цитатам, анализирует контент через внутреннее рассуждение, затем генерирует текст. После завершения секции соответствующие материалы удаляются из контекста, что предотвращает переполнение контекста и перекрестные помехи между секциями.

Экспериментальные результаты

На бенчмарке DeepResearch Bench WebWeaver достигает 50.58 общего балла против 49.71 у Gemini-2.5-pro-deepresearch и 46.45 у openai-deepresearch. Особенно впечатляет точность цитирования — 93.37% у WebWeaver против 78.3% у Gemini. Высокая точность цитирования достигается синергией агентов: планировщик встраивает идентификаторы цитат в структуру, а иерархический синтез генератора использует эту структуру для целевого извлечения.

Статистический анализ показывает масштаб задачи: планировщик выполняет около 16 шагов поиска, проходит более 2 циклов оптимизации структуры, сохраняет более 100 веб-страниц с 67 тысячами токенов доказательств. Генератор создает отчет на 26 тысяч токенов примерно за 25 дискретных шагов. Эти цифры показывают необходимость архитектуры с центральным банком памяти и целевым извлечением информации.

Дистилляция в меньшие модели

Исследователи создали датасет WebWeaver-3k из 3.3 тысяч стратегий планирования и 3.1 тысяч стратегий генерации текста. Дообучение модели Qwen3-30b на этих данных улучшает точность цитирования с 25% до 85.90%, общий балл на DeepConsult с 4.57 до 6.09, на DeepResearchGym с 77.27 до 90.89.

WebWeaver переформулирует проблему рассуждений в длинном контексте как структурированную задачу системного управления информацией через серию точных действий. Планировщик и генератор используют инструменты для динамического исследования, структурирования и генерации, вместо пассивной обработки в одном проходе. Это создает образец для построения агентных систем, овладевающих знаниями через действия, а не через механизмы внимания.