MiniMax-01: открытая языковая модель с Lightning Attention лидирует на бенчмарках с контекстом 4M

MiniMax выложил в open source модели MiniMax-01 с 456 миллиардами параметров: MiniMax-Text-01 для текстовых и MiniMax-VL-01 для визуально-языковых задач. MiniMax-01 стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, поддерживая стабильно высокую производительность (0.910-0.963) при длине контекста до 4M токенов. Полные веса моделей MiniMax-Text-01 и MiniMax-VL-01 доступны на Github.

Архитектура Minimax-01

Серия MiniMax-01 отличается от традиционных архитектур Transformer благодаря применению механизма Lightning Attention. Модель содержит 456 миллиардов параметров, из которых 45.9 миллиардов активируются на инференсе. Разработчики использовали гибридную структуру механизма внимания: 7 слоев Lightning Attention (линейное внимание) и 1 традиционный слой SoftMax attention.

MiniMax-Text-01 имеет повторяющуюся блочную архитектуру с двумя ключевыми компонентами: слоями внимания и MoE (Mixture of Experts) обработкой. Каждый блок интегрирует слои RMSNorm с residual-соединениями (α), чередуя механизмы Lightning Attention и SoftMax Attention. Lightning Attention обрабатывает входные данные через SiLU-активированные Q/K/V преобразования и Sigmoid-гейт, в то время как компонент MoE использует Router для распределения входных данных между N Feed-Forward сетями с top-2 маршрутизацией. Такая архитектура эффективно обрабатывает длинные последовательности при сохранении производительности модели через сбалансированные механизмы внимания и экспертной маршрутизации.

Результаты бенчмарков

Модель на стандартных бенчмарках соответствует ведущим моделям от OpenAI, Claude и Google в понимании текста и мультимодальных данных. Особенно примечательно достижение 100% точности в задаче поиска Needle-In-A-Haystack с контекстом в 4 миллиона токенов при минимальной деградации производительности с увеличением длины входных данных.

Производительность Minimax-01 при различной длине контекста

MiniMax-Text-01 демонстрирует исключительное масштабирование производительности при различной длине контекста, особенно выделяясь на длинных последовательностях. В тестах Ruler она поддерживает стабильно высокие показатели от 4k до 1M токенов:

Короткий и средний контекст (4k-64k): удерживает результат выше 0.94, соответствуя или превосходя модели GPT-4o и Claude-3.5-Sonnet

Расширенный контекст (128k-1M): minimax-01 показывает стабильные оценки 0.947-0.910, превосходя всех конкурентов, таких как Gemini-2.0-Flash, результат которого падает до 0.709 на 512k токенах.

Производительность в LongBench

Модель демонстрирует превосходные возможности в бенчмарке LongBench v2, как с Chain of Thought (CoT), так и без него:

Общая производительность: Достигает 56.5 (с CoT) и 52.9 (без CoT), превосходя все сравниваемые модели, включая GPT-4o
Специфические сильные стороны: Особенно преуспевает в категориях ‘easy’ (66.1) и ‘short’ (61.7) с CoT
Стабильная производительность: Поддерживает высокие показатели во всех тестовых категориях, демонстрируя сбалансированные возможности

Эти результаты бенчмарков подтверждают эффективность архитектуры MiniMax-Text-01, особенно подчеркивая её способность поддерживать высокую производительность при увеличении длины контекстных окон, что является crucial достижением для практических AI приложений.

Доступность и цены

Чат: https://www.hailuo.ai/
Доступ к API: MiniMax Open Platform
Конкурентная ценовая структура: $0.2 за миллион входных токенов
Возможности обработки визуально-языковых данных с MiniMax-VL-01
Разработчики обещают регулярные обновления кода и развитие мультимодальных функций

Выпуск MiniMax-01 знаменует важный шаг вперед в развитии AI, особенно для AI Agents, где критически важна обработка расширенного контекста. Архитектура модели обеспечивает надежную основу для управления сложными взаимодействиями с длинным контекстом как в системах с одним агентом, так и в сценариях коммуникации между несколькими агентами.