MiniCPM4: открытая локальная модель достигает производительности Qwen3-8B при 7-кратном ускорении инференса

Команда исследователей OpenBMB представила MiniCPM4 — высокоэффективную языковую модель, разработанную специально для локальных устройств. MiniCPM4-8B достигает сопоставимой с Qwen3-8B производительности (81.13 против 80.55), при этом для обучения требуется в 4.5 раза меньше токенов: 8 триллионов против 36. На локальных устройствах MiniCPM4 работает в 7 раз быстрее Qwen3-8B при генерации ответов для 128K-токенных последовательностей. Эффективность достигается за счет улучшений в четырех ключевых направлениях: обучаемого разреженного внимания InfLLM v2, фильтрации данных UltraClean, оптимизированных алгоритмов обучения ModelTunnel v2 и фреймворка инференса CPM.cu. Модели MiniCPM0.5B и MiniCPM8B выпущены под лицензией Apache 2.0 и доступны на GitHub, а веса выложены на Hugging Face.

Архитектура модели

Разработчики MiniCPM4 применили системный подход, внедрив инновации в четырех критических областях. Архитектура модели получила новый механизм InfLLM v2 — обучаемое разреженное внимание, которое ускоряет как предварительное заполнение (prefilling), так и декодирование для длинных контекстов. Система использует семантические ядра размером 32 токена с шагом 16 для динамического выбора релевантных блоков ключ-значение, достигая 81% разреженности внимания без потери производительности.

InfLLM v2 Contextual Block Selection and Sparse Attention Computation — Архитектура InfLLM v2: двухэтапный процесс с Contextual Block Selection и Sparse Attention Computation

Улучшение в обработке тренировочных данных реализована через UltraClean — стратегию фильтрации, сокращающую затраты верификации с 1,200 до 110 GPU-часов. Система использует предобученную 1B модель для оценки качества данных через двухэтапный процесс постепенного снижения скорости обучения, классификатор FastText обрабатывает 15 триллионов токенов за 1,000 CPU-против 6,000 GPU-часов у традиционных подходов. UltraChat v2 дополняет систему датасетом для контролируемого дообучения, включающим данные для интенсивного использования знаний, интенсивного рассуждения, следования инструкциям, длинного контекста и использования инструментов

Алгоритмы обучения были улучшены через ModelTunnel v2, который использует ScalingBench как индикатор производительности, устанавливая сигмоидную связь между функцией потерь и качеством выполнения последующих задач. Поблочное развертывание для сбалансированного обучения с подкреплением обеспечивает 60% снижение времени сэмплирования.

The sigmoid relationship between loss and downstream performance on ScalingBench. — Демонстрация сигмоидной зависимости между loss на ScalingBench и производительностью на downstream задачах

Фреймворк инференса CPM.cu интегрирующет разреженное внимание, квантизацию модели и спекулятивную выборку. FR-Spec сокращает словарь на 75% для ускорения черновой генерации, P-GPTQ обеспечивает квантизацию с учетом префикса, а ArkInfer поддерживает кросс-платформенное развертывание.

Результаты

Экспериментальные результаты убедительно демонстрируют эффективность подхода. MiniCPM4-0.5B достигает 52.99 среднего балла против 44.93 у Qwen3-0.6B, в то время как MiniCPM4-8B показывает 81.13 балла против 80.55 у Qwen3-8B. Революционной представляется эффективность обучения: MiniCPM4 достигает сопоставимой производительности, используя всего 8 триллионов токенов против 36 триллионов у Qwen3-8B — это составляет лишь 22% от исходного объема данных.

Производительность inference демонстрирует впечатляющие результаты. На платформе Jetson AGX Orin при обработке 128K контекста MiniCPM4 обеспечивает семикратное ускорение относительно Qwen3-8B. Система успешно справляется с экстремально длинными контекстами, достигая 100% точности в тесте RULER-NIAH при обработке до 128K токенов с экстраполяцией от базовых 32K.

The evaluation results for long sequence prefilling — Результаты оценки MiniCPM4-8B на задаче Pressure Testing via RULER-NIAH с различными позициями и длинами контекста

равнительные результаты MiniCPM4 с baseline моделями на популярных бенчмарках

Реальные применения

Практическая ценность MiniCPM4 подтверждается через специализированные модели. MiniCPM4-Survey для генерации научных обзоров использует архитектуру Plan-Retrieve-Write, достигая Content Quality 3.50 и рекордного показателя Fact Score 68.73, превосходя даже OpenAI Deep Research по фактуальным метрикам.

MiniCPM4-MCP адаптирована для работы с Model Context Protocol и демонстрирует выдающиеся результаты:

— точность для имен функций: 88.3%;
— точность для имен параметров: 76.1%.

Модель была обучена на 140,000 примеров данных для вызова инструментов через протокол MCP и превосходит базовую модель Qwen3-8B по всем ключевым метрикам. Система поддерживает совместимость с 16 различными MCP-серверами, включая Airbnb, GitHub, Slack, PPT и Calculator, обеспечивая широкую интеграцию с существующими инструментами разработки.

MiniCPM4 выпускается в двух конфигурациях с 0.5B и 8B параметров, обеспечивая оптимальное развертывание на ресурсо-ограниченных устройствах. Исследование демонстрирует возможность создания высокоэффективных языковых моделей через комплексную оптимизацию архитектуры, данных, алгоритмов и систем вывода, открывая перспективы доступного искусственного интеллекта.