Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках

llama 3.1 human evaluation

Модели LLaMA 3.1 официально выпущены, включая самую большую открытую модель с 405 миллиардами параметрами, модели 70B и 8B и мультимодальную модель. Контекст расширен до 128K токенов, поддерживается восемь языков, а результаты тестов сопоставимы оценками проприетарных state-of-the-art моделей.

LLaMA 3.1 405B демонстрирует выдающуюся производительность по широкому спектру тестов, превосходя другие современные модели по различным задачам: Общие: MMLU (0-shot, CoT): LLaMA 3.1 набирает 88.6, опережая Nemotron 4 (78.7), GPT-4 (85.4), GPT-4 Omni (88.7) и Claude 3.5 Sonnet (88.3). MMLU PRO (5-shot, CoT): LLaMA 3.1 набирает 73.3, значительно больше, чем Nemotron 4 (62.7), GPT-4 (64.8) и GPT-4 Omni (74.0), но немного меньше, чем Claude 3.5 Sonnet (77.0). IFEval: LLaMA 3.1 достигает 88.6, опережая Nemotron 4 (85.1), GPT-4 (84.3) и GPT-4 Omni (85.6), и близка к Claude 3.5 Sonnet (88.0). Код: HumanEval (0-shot): LLaMA 3.1 набирает 89.0, превосходя Nemotron 4 (73.2), GPT-4 (86.6), GPT-4 Omni (90.2) и Claude 3.5 Sonnet (92.0). MBPP EvalPlus (base) (0-shot): LLaMA 3.1 достигает 88.6, опережая Nemotron 4 (72.8), GPT-4 (83.6), GPT-4 Omni (87.8) и немного отставая от Claude 3.5 Sonnet (90.5). Математика:

LLaMA 3.1 включает несколько важных обновлений:

  • Расширенная длина контекста: Длина контекста увеличена до 128 000 токенов, что позволяет обрабатывать более объемные и сложные входные данные, сохраняя связность на протяжении длинных диалогов.
  • Поддержка языков: Модель теперь поддерживает восемь языков, что расширяет ее возможности для многоязычных приложений.
  • Модель уровня фронтира: Флагманская модель, LLaMA 3.1 405B, имеет 405 миллиардов параметров, что делает ее самой крупной и наиболее мощной открытой моделью.

Модели LLaMA 3.1 и их возможности

  • LLaMA 3.1 Base: Предназначена для общих задач на понимание и генерации текста.
  • LLaMA 3.1 Fine-Tuned: Адаптирована для специализированных задач в таких областях, как юридическая, медицинская или техническая сферы, значительно улучшая производительность базовой модели в этих областях.
  • LLaMA 3.1 Zero-Shot: Оптимизирована для обучения без примеров, чтобы справляться с задачами, на которых не была явно обучена.
  • LLaMA 3.1 Multi-Modal: Интегрирует возможности обработки текста и изображений, расширяя функциональность до анализа мультимодальных данных.

Сравнение с LLaMA 3

LLaMA 3.1 представляет собой значительное обновление по сравнению с LLaMA 3. Длина контекста увеличена до 128 000 токенов по сравнению с 12 000 токенами в LLaMA 3, что улучшает способность модели обрабатывать более длинные и сложные входные данные. Исследования показывают, что увеличение длины контекста может улучшить производительность в задачах, требующих управления долгосрочными зависимостями (source).

Оценка моделей

оценки LLaMA 3.1

LLaMA 3.1 405B демонстрирует выдающуюся производительность, превосходя другие современные модели на тестах.

Общие метрики

  • MMLU (0-shot, CoT): LLaMA 3.1 набирает 88.6, опережая Nemotron 4 (78.7), GPT-4 (85.4), GPT-4 Omni (88.7) и Claude 3.5 Sonnet (88.3).
  • MMLU PRO (5-shot, CoT): LLaMA 3.1 набирает 73.3, значительно выше, чем Nemotron 4 (62.7), GPT-4 (64.8) и GPT-4 Omni (74.0), но немного ниже, чем Claude 3.5 Sonnet (77.0).
  • IFEval: LLaMA 3.1 достигает 88.6, превосходя Nemotron 4 (85.1), GPT-4 (84.3) и GPT-4 Omni (85.6), и близка к Claude 3.5 Sonnet (88.0).

Код

  • HumanEval (0-shot): LLaMA 3.1 набирает 89.0, превосходя Nemotron 4 (73.2), GPT-4 (86.6), GPT-4 Omni (90.2) и Claude 3.5 Sonnet (92.0).
  • MBPP EvalPlus (base) (0-shot): LLaMA 3.1 достигает 88.6, опережая Nemotron 4 (72.8), GPT-4 (83.6), GPT-4 Omni (87.8) и немного отставая от Claude 3.5 Sonnet (90.5).

Обучение модели

Обучение LLaMA 3.1 405B на более чем 15 триллионах токенов включало:

  • Оптимизированный тренировочный стек: Использовано более 16 000 GPU H100 для эффективного обучения.
  • Квантование: Модели были квантированы с 16-битных до 8-битных чисел, что снизило требования к вычислениям и обеспечило работу на одном узле.
  • Итеративное дообучение: Сочетание supervision дообучения и оптимизации для повышения производительности.

Цены

Цены LLAMA 3.1 лучше, чем у конкурентов (пока). Сравнение цен на запросы к API:

  • LLaMA 3.1: Цена около 0,01 $ за 1 000 токенов для стандартного использования.
  • Gemini (Google DeepMind): Примерно 0,015 $ за 1 000 токенов.
  • Sonnet (Claude): Стоимость около 0,012 $ за 1 000 токенов.
  • GPT-4 (OpenAI): Около 0,03 $ за 1 000 токенов для стандартного доступа.

Разработка с использованием LLaMA 3.1 405B

Для обычного разработчика использование модели масштаба 405B представляет собой непростую задачу из-за значительных требований к вычислениям. Экосистема LLaMA поддерживает различные продвинутые пайплайны, включая генерацию синтетических данных, дистилляцию модели и генерацию с поддержкой поиска, с решениями от партнеров AWS, NVIDIA и Databricks.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt