RRNCB — первый российский открытый бенчмарк для оценки RAG-моделей

RRNCB benchmark russian RAG

RRNCB (Russian RAG Normative — Corporate Benchmark) — первый российский открытый бенчмарк для комплексной оценки RAG-моделей при работе с нормативной, правовой и технической документацией компаний. RRNCB адаптирован под специфику русскоязычных данных — корпоративных документов, кодексов, ГОСТов и СНИПов, СП, регламентов, финансовых отчетов. В отличие от существующих решений, которые оценивают преимущественно языковые модели, RRNCB проводит комплексную оценку RAG как продукта — от извлечения данных до финальной генерации ответа. Бенчмарк запущен 20 августа 2024 года, первые результаты будут опубликованы 20 сентября. Регистрация RAG решений участников продолжается до 3 сентября. Для участия заполните заявку

Специализированный датасет

Основой бенчмарка является специализированный датасет, включающий вопросы, эталонные ответы и подтверждающие фрагменты документов. Датасет сбалансирован и охватывает различные домены: техническую документацию, юридические кодексы, текстовые описания и табличные данные.

Структура датасета включает мультимодальные данные:

  • Текстовые документы различной сложности;
  • Табличные данные с числовыми показателями;
  • Комбинированный контент, требующий анализа нескольких источников.

Бенчмарк содержит от 500 до 1000 вопросов для оценки основных метрик и дополнительно 30–50 специализированных мультимодальных заданий. Вопросы имеют различную структуру, включая навигационные («в каком разделе документа говорится о…»), retrieval («Когда был принят ГОСТ ИСО 1940-2-99?»), композиционные («Какие требования предъявляются к возводимым конструкциям…»), и вопросы, требующие дополнительной обработки контекста из нескольких документов.

Комплексные метрики оценки

RRNCB benchmark metrics

Методология RRNCB включает метрики, разделенные на несколько категорий для объективного анализа качества работы компонентов RAG решений.

End-to-End оценка качества текста использует классические метрики RougeN (N=2, 4) и RougeL для измерения полноты, точности и F1-меры. Эти метрики оценивают лексическое пересечение с эталонным ответом, что позволяет количественно измерить качество генерации.

Сравнительная оценка с помощью LLM-судей. Четыре крупные языковые модели (среди кандидатов — GPT-4, GPT-5, Grok, DeepSeek, Gemini) выступают в роли анонимных судей, сравнивая ответы разных RAG решений. Модели оценивают стилистическое соответствие, релевантность запросу и фактологическую точность. Результат для каждого ответа представляется в виде среднего балла от 0 до 1, где 1 означает единогласную победу в сравнении с конкурентами.

Производительность и функциональность включает измерение скорости ответа — времени в секундах от получения запроса до генерации первого токена. Дополнительно оценивается способность к уточнению — доля случаев, когда RAG корректно задает уточняющие вопросы при неоднозначных запросах, что улучшает финальный ответ.

Поддержка мультимодальности

Особое внимание в RRNCB уделяется мультимодальным возможностям RAG решений. Оценивается процент корректных ответов на комплексные запросы, включающие работу с текстом и таблицами одновременно. Это критически важно для корпоративных сценариев, где документы часто содержат структурированные данные наряду с текстовыми описаниями.

Мультимодальные задания включают:

  • Извлечение данных из таблиц с последующим текстовым анализом
  • Сопоставление информации между различными разделами документов
  • Интерпретация числовых показателей в контексте текстовых требований

Практическая ценность

RRNCB benchmark demo

RRNCB призван упростить выбор RAG решения коммерческим и производственным компаниям. Независимый лидерборд предоставляет объективную оценку современных RAG решений, позволяя принимать обоснованные решения о внедрении генеративного ИИ в бизнес на основе количественных метрик.

Участие в бенчмарке требует работы продукта через API с отправкой вопросов, получением ответов и загрузкой документов. Это подход «черного ящика», который оценивает готовые решения в реальных условиях использования.

Экспертный совет бенчмарка включает лидеров IT индустрии и специалистов из ведущих российских технологических компаний и исследовательских центров, что обеспечивает профессиональный подход к методологии оценки.

RRNCB выпускается как открытый проект с возможностью участия для любых разработчиков RAG решений. Создание отраслевого бенчмарка позволит продолжить тренд на возрастающую потребность оценки потребительских характеристик GenAI и выйти на уровень мировых бенчмарков типа MERA, SuperGLUE, DRAGON, LMArena, RAGBench.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt