Метод Chain-of-Experts повышает эффективность MoE моделей, снижая потребление памяти до 42%

11 марта 2025
CoE

Метод Chain-of-Experts повышает эффективность MoE моделей, снижая потребление памяти до 42%

Chain-of-Experts (CoE) — новый подход, фундаментально изменяющий обработку информации в разреженных языковых моделях (sparse language models), увеличивающий производительность модели при значительно меньшем потреблении памяти. Метод решает ключевые ограничения Mixture-of-Experts моделей,…

R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

27 февраля 2025
r1 demo

R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

Исследователи из Чжэцзянского университета представили R1-Onevision, открытую мультимодальную модель рассуждений с 7 миллиардами параметров. R1-Onevision решает сложные математические, научные и инженерные задачи с показателями производительности, превосходящими GPT-4o в математике и…

На каком языке «мыслят» большие языковые модели

30 января 2025
unnamed

На каком языке «мыслят» большие языковые модели

Новое исследование EPFL проливает свет на внутренние механизмы обработки многоязычных данных в LLM, что критично для понимания принципов работы современных языковых моделей и их оптимизации. Исследователи применили метод Logit lens…

MiniMax-01: открытая языковая модель с Lightning Attention лидирует на бенчмарках с контекстом 4M

15 января 2025

MiniMax-01: открытая языковая модель с Lightning Attention лидирует на бенчмарках с контекстом 4M

MiniMax выложил в open source модели MiniMax-01 с 456 миллиардами параметров: MiniMax-Text-01 для текстовых и MiniMax-VL-01 для визуально-языковых задач. MiniMax-01 стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом,…

SmolLM2: открытая компактная LLM от Hugging Face превосходит Llama-1B и Qwen2.5-1.5B

6 ноября 2024
SmolLM v2

SmolLM2: открытая компактная LLM от Hugging Face превосходит Llama-1B и Qwen2.5-1.5B

Компания Hugging Face представила SmolLM2 — новое семейство компактных языковых моделей, которое преводсходит существующие state-of-the-art модели. Так версия с 1.7B параметров опережает Llama-1B и Qwen2.5-1.5B на нескольких ключевых бенчмарках: 68.7%…

MinerU — open-source модель для извлечения данных из документов с точностью 93,5%

30 сентября 2024
Structure AI document extraction ai

MinerU — open-source модель для извлечения данных из документов с точностью 93,5%

MinerU — open-source модель для извлечения и структурирования контента из документов, представленная исследователями из Лаборатории Искусственного Интеллекта Шанхая. MinerU автоматизирует извлечение текста, формул, таблиц и изображений из документов, таких как…

Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах

26 сентября 2024

Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах

Molmo — семейство мультимодальных моделей Vision-Language (VLM), разработанных исследователями из Allen Institute for AI и Университета Вашингтона. Семейство моделей Molmo превосходит многие проприетарные и открытые state-of-the-art модели по результатам академических…

OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

13 сентября 2024
openai o1

OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

OpenAI представила новое семейство моделей o1, следующее поколение моделей GPT. Модели o1 — в частности, o1-preview и o1-mini — разработаны для выполнения более сложных логических задач, чем их предшественники, и…

xLAM и xGen: Salesforce выложил в open source модели для автоматизации отдела продаж

9 сентября 2024
salesforce AI models open sourced xlam

xLAM и xGen: Salesforce выложил в open source модели для автоматизации отдела продаж

Salesforce представил семейство моделей xLAM (Large Action Models), предназначенных для оптимизации и автоматизации рабочих процессов отдела продаж. В отличие от LLMs, которые в основном генерируют текст, xLAM выполняет задачи вызова…

Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз

27 августа 2024
search types

Масштабирование вычислений на этапе инференса может увеличить производительность в 14 раз

Исследователи из UC Berkeley и Google DeepMind предложили новый метод оптимизации вычислений на этапе инференса для LLM и продемонстрировали, что увеличение вычислительных мощностей на этапе инференса может быть более эффективным,…

Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью

22 августа 2024

Ideogram 2.0: новая модель генерирует текст на изображениях с непревзойденной точностью

Ideogram выпустила обновленную text-to-image модель Ideogram 2.0. Обученная с нуля, Ideogram 2.0 субъективно значительно превосходит конкурентов в точности отображения текста (примеры в статье). Новая бета-версия API позволяет разработчикам бесшовно интегрировать…

LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов

19 августа 2024
agentwrite

LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов

LongWriter — открытый фреймворк и набор больших языковых моделей (LLMs) для генерации связных и релевантных ответов, превышающих 10 000 слов. Longwriter использует пайплайн AgentWrite, который разбивает задачу генерации длинных текстов…

Mistral Large 2: новый лидер в генерации кода среди open source моделей

25 июля 2024
Performance accuracy on code generation benchmarks (all models were benchmarked through the same evaluation pipeline)

Mistral Large 2: новый лидер в генерации кода среди open source моделей

Mistral AI представила Mistral Large 2, которая устанавливает новый бенчмарк в генерации кода среди open source моделей, незначительно уступая GPT-4 omni. Mistral Large 2 превосходит Llama 3.1 в генерации кода…

Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках

21 июня 2024
claude 3.5 sonnet by anthropic

Anthropic представила Claude 3.5 Sonnet, которая превосходит GPT-4o на ключевых бенчмарках

Anthropic представила новую большую языковую модель Claude 3.5 Sonnet. Она уже доступна в чат-боте ClaudeAI, Anthropic API, Amazon Bedrock, and Google Cloud’s Vertex AI. Claude 3.5 Sonnet превосходит GPT-4o на…

Google PH-LLM: языковая модель для мониторинга здоровья

16 июня 2024
Google PH-LLM pipeline

Google PH-LLM: языковая модель для мониторинга здоровья

Google разработала языковую модель PH-LLM для анализа медицинских данных, собранных с носимых устройств – умных часов и пульсометров. В ходе экспериментов модель отвечала на вопросы о здоровье и прогнозировала состояние…

Zyda: open source датасет объемом 1.3T для обучения языковых моделей

12 июня 2024
zyda dataset composition

Zyda: open source датасет объемом 1.3T для обучения языковых моделей

Zyda – это открытый датасет объемом 1.3 триллиона токенов от команды Zyphra, предназначенный для обучения больших языковых моделей. Zyda включает в себя данные из open source датасетов, таких как RefinedWeb,…

Apple представила «Apple Intelligence» и партнёрство с OpenAI на WWDC

11 июня 2024
Apple-WWDC24-Apple-Intelligence-OpenAI-deal

Apple представила «Apple Intelligence» и партнёрство с OpenAI на WWDC

На Всемирной конференции разработчиков (WWDC) компания Apple представила «Apple Intelligence» и объявила о стратегическом партнёрстве с OpenAI. Эти шаги демонстрируют стремление компании интегрировать искусственный интеллект в свои устройства, такие как iPhone, iPad…

Qwen2: открытая языковая модель, превосходящая LLAMA 3 на большинстве бенчмарков

7 июня 2024
qwen2-72b comparison

Qwen2: открытая языковая модель, превосходящая LLAMA 3 на большинстве бенчмарков

Переход от Qwen1.5 к Qwen2 наконец состоялся, что стало прорывом в области языковых моделей. Новый state-of-the-art среди открытых моделей, Qwen 2, превосходит Llama 3 на большинстве бенчмарков.  Зоопарк моделей Qwen2…

Sound Effects: генерация звуков по описанию

3 июня 2024

Sound Effects: генерация звуков по описанию

Стартап ElevenLabs представил Sound Effects – платформу для генерации звуков и аудиосэмплов различного типа на основе текстового описания. Сервис позволяет создателям видео, игр и другого контента сократить время на самостоятельную…

Mabl: генерация тестов для мобильных приложений

28 апреля 2024
mabl testing

Mabl: генерация тестов для мобильных приложений

Платформа автоматизации тестирования Mabl объявила о запуске AI-сервиса для тестирования мобильных приложений. C ее помощью разработчики могут за несколько минут создавать тесты для iOS- и Android-приложений, покрывающие все основные типы…

Google RecurrentGemma: компактная локальная языковая модель

14 апреля 2024
recurrentgemma пщщпду

Google RecurrentGemma: компактная локальная языковая модель

Google представила языковую модель RecurrentGemma, работающую локально на устройствах с ограниченными ресурсами, таких как смартфоны, персональные компьютеры и умные колонки. Новая архитектура Google значительно снижает требования к памяти и процессору,…