Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках

Anthropic представила новую большую языковую модель Claude 3.5 Sonnet. Она уже доступна в чат-боте ClaudeAI, Anthropic API, Amazon Bedrock, and Google Cloud’s Vertex AI. Claude 3.5 Sonnet превосходит GPT-4o на ключевых бенчмарках, включая GPQA, MMLU, HumanEval. На момент написания статьи модель не представлена на чатбот-арене. Контекст модели: 200к токенов.

Результаты тестов Claude 3.5 Sonnet

Claude 3.5 Sonnet показала впечатляющие результаты на ключевых бенчмарках:

Уровень рассуждений для выпускников (GPQA): Достигнута успешность 59.4% в задачах сложных рассуждений, что больше Claude 3 Opus на 9% и GPT-4o на 5.8%.
Знания на уровне бакалавриата (MMLU): Набрал 88.7% в тестах, охватывающих широкий круг областей знаний, превзойдя Claude 3 Opus на 2% и соответствуя GPT-4o.
Навыки программирования (HumanEval): Достиг точности 92.0% в задачах программирования, превзойдя Claude 3 Opus на 7.2% и GPT-4o на 1.8%.
Расширенное рассуждение над текстом (DROP, F1 score): Набрал 87.1% в тестах на расширенное рассуждение на основе текста, превзойдя Claude 3 Opus на 4% и GPT-4o на 3.7%.
Смешанные оценки (BIG-Bench-Hard): Достиг 93.1% в тестах со смешанными оценками, превзойдя Claude 3 Opus на 6.3% и GPT-4o на 3.9%.
Математика для начальной школы (GSM8K): Достиг точности 96.4% в задачах по математике для начальной школы, превзойдя Claude 3 Opus на 1.4% и GPT-4o на 5.6%.
Научные диаграммы (AI2D): Показал 94.7% в тестах на интерпретацию научных диаграмм, превзойдя Claude 3 Opus на 6.6% и GPT-4o на 0.5%

Artifacts — новый способ использования Claude AI

Anthropic представляет Artifacts на Claude.ai, новую функцию, расширяющую возможности взаимодействия пользователей с Claude. При запросе пользователя на создание фрагмента кода, текстовых документов или дизайна веб-сайта, эти фрагменты отображаются в отдельном окне рядом с диалогом. Это создает динамичное рабочее пространство, где пользователи могут работать над сгенерированным Claude контентом.

Эта функция предварительного просмотра представляет собой эволюцию Claude от разговорного ИИ к полноценной рабоче среде. В рамках более широкой концепции для Claude.ai, в будущем будет поддерживаться совместная командная работа. Команды и организации смогут централизовать свои знания, документы и текущую работу в одном общем пространстве, где Claude будет выступать в роли ассистента.