QeRL: 32B модель обучается с подкреплением на одном GPU H100 вместо трех, превосходя LoRA в точности

16 октября 2025
QeRL rainforcement learning quantization training speedup

QeRL: 32B модель обучается с подкреплением на одном GPU H100 вместо трех, превосходя LoRA в точности

QeRL — фреймворк для обучения языковых моделей методом обучения с подкреплением, который одновременно снижает требования к GPU и превосходит в точности традиционные методы LoRA и QLoRA. На модели Qwen2.5-7B-Instruct QeRL…

MinerU2.5 — открытая 1.2B-модель для парсинга PDF документов превосходит Gemini 2.5 Pro на бенчмарках

2 октября 2025
minerU2.5 comparison PDF parsing model

MinerU2.5 — открытая 1.2B-модель для парсинга PDF документов превосходит Gemini 2.5 Pro на бенчмарках

MinerU2.5 — компактная vision-language модель с 1.2 миллиардами параметров для парсинга PDF документов, представленная командой Shanghai Artificial Intelligence Laboratory. Модель достигает state-of-the-art результатов в парсинге PDF при минимальных вычислительных затратах…

Гибридный токенизатор изображений: новый подход Apple к созданию мультимодальных моделей

22 сентября 2025
manzano

Гибридный токенизатор изображений: новый подход Apple к созданию мультимодальных моделей

Команда исследователей Apple представила Manzano — унифицированную мультимодальную большую языковую модель, которая объединяет возможности понимания и генерации визуального контента через гибридный токенизатор изображений и тщательно подобранную стратегию обучения. Авторегрессивная модель…

WebWeaver — открытый фреймворк для глубоких исследований преводсходит OpenAI DeepResearch, Gemini Deep Research на бенчмарках

17 сентября 2025
Tongyi-DeepResearch-30B-A3B results webweaver deepresearch

WebWeaver — открытый фреймворк для глубоких исследований преводсходит OpenAI DeepResearch, Gemini Deep Research на бенчмарках

Исследователи из Tongyi Lab (Alibaba Group) представили WebWeaver — открытый двухагентный фреймворк для глубоких исследований, который симулирует человеческий исследовательский процесс. Фреймворк состоит из планировщика, который итеративно чередует веб-поиск источников и…

MiniCPM4: открытая локальная модель достигает производительности Qwen3-8B при 7-кратном ускорении инференса

15 июня 2025
end devices llm

MiniCPM4: открытая локальная модель достигает производительности Qwen3-8B при 7-кратном ускорении инференса

Команда исследователей OpenBMB представила MiniCPM4 — высокоэффективную языковую модель, разработанную специально для локальных устройств. MiniCPM4-8B достигает сопоставимой с Qwen3-8B производительности (81.13 против 80.55), при этом для обучения требуется в 4.5…

Строгое on-policy обучение с оптимальным бейзлайном: Microsoft представила упрощенный алгоритм для RLHF

4 июня 2025
On-Policy RL with Optimal Reward Baseline

Строгое on-policy обучение с оптимальным бейзлайном: Microsoft представила упрощенный алгоритм для RLHF

Исследовательская команда Microsoft Research представила On-Policy RL with Optimal reward baseline (OPO) — упрощенный алгоритм обучения с подкреплением для выравнивания больших языковых моделей. Новый метод решает ключевые проблемы современных RLHF…

Visual-ARFT: новый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах

22 мая 2025
Диаграмма процесса обучения Visual-ARFT

Visual-ARFT: новый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах

Исследовательская группа из Шанхайского университета Цзяо Тонг и Шанхайской лаборатории искусственного интеллекта представила Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) — новый подход к обучению крупных мультимодальных моделей агентным возможностям. Методика демонстрирует…

ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%

9 мая 2025
zerosearch method

ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%

Исследовательская команда NLP Alibaba официально открыла исходный код ZEROSEARCH, полноценного фреймворка для обучения LLM способности к поиску в интернете без использования реальных поисковых систем. ZEROSEARCH основан на ключевом наблюдении: LLM…

Phi-4-reasoning: 14B модель от Microsoft превосходит масштабные модели в задачах сложного рассуждения

4 мая 2025
phi-4-reasoning-model

Phi-4-reasoning: 14B модель от Microsoft превосходит масштабные модели в задачах сложного рассуждения

Microsoft представила модель Phi-4-reasoning с 14 миллиардами параметров, которая демонстрирует исключительную производительность на сложных задачах рассуждения, превосходя модели, превышающие её по размеру в 5-47 раз, и требуя значительно меньше вычислительных…

DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent

21 апреля 2025
deepmath reasoning dataset ai

DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent

Исследователи из Tencent и Шанхайского университета Цзяо Тонг опубликовали DeepMath-103K — крупный математический датасет, созданный для разработки продвинутых моделей рассуждения с помощью обучения с подкреплением. Создание набора данных стоило исследователям…

Anthropic представил образовательную версию Claude для внедрения в университетах и колледжах

3 апреля 2025
claude education

Anthropic представил образовательную версию Claude для внедрения в университетах и колледжах

Anthropic выпустил версию Claude для образования, разработанную специально для внедрения в университеты и другие высшие учебные заведения. В то время как классический чат-бот выдает прямые ответы на вопросы, Claude for…

Llama Nemotron: семейство открытых моделей от Nvidia обходит DeepSeek R1 в рассуждении и математике

19 марта 2025
llama nemotron 3.3

Llama Nemotron: семейство открытых моделей от Nvidia обходит DeepSeek R1 в рассуждении и математике

NVIDIA анонсировала семейство открытых моделей Llama Nemotron с продвинутыми возможностями в задачах рассуждения. Дообучение моделей Llama 3.3 и 3.1 позволило Nvidia улучшить их точность на 20% при достижении в 5…

На каком языке «мыслят» большие языковые модели

30 января 2025
unnamed

На каком языке «мыслят» большие языковые модели

Новое исследование EPFL проливает свет на внутренние механизмы обработки многоязычных данных в LLM, что критично для понимания принципов работы современных языковых моделей и их оптимизации. Исследователи применили метод Logit lens…

Токенизатор TA-TiTok от Bydedance обновил бенчмарки в генерации изображений при обучении на открытых данных

19 января 2025
ta-titok and maskgen research

Токенизатор TA-TiTok от Bydedance обновил бенчмарки в генерации изображений при обучении на открытых данных

ByteDance и POSTECH представили токенизатор TA-TiTok (Text-Aware Transformer-based 1-Dimensional Tokenizer), новый подход к созданию доступных и эффективных text-to-image моделей. Маскированная генеративная модель MaskGen с токенизотором TA-TiTok достигла SOTA для text-to-image…

SmolLM2: открытая компактная LLM от Hugging Face превосходит Llama-1B и Qwen2.5-1.5B

6 ноября 2024
SmolLM v2

SmolLM2: открытая компактная LLM от Hugging Face превосходит Llama-1B и Qwen2.5-1.5B

Компания Hugging Face представила SmolLM2 — новое семейство компактных языковых моделей, которое преводсходит существующие state-of-the-art модели. Так версия с 1.7B параметров опережает Llama-1B и Qwen2.5-1.5B на нескольких ключевых бенчмарках: 68.7%…

EzAudio: гиперреалистичная открытая Text-to-Audio модель

19 сентября 2024
ezaudio text-to-audio model generation ai

EzAudio: гиперреалистичная открытая Text-to-Audio модель

EzAudio — новая диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. В основе модели — архитектура диффузионного трансформера для обработки…

DeeplearningAI выпустил бесплатный курс «Мультимодальный RAG: Общение с видео»

15 сентября 2024
Multimodal RAG

DeeplearningAI выпустил бесплатный курс «Мультимодальный RAG: Общение с видео»

DeeplearningAI выпустил бесплатный видеокурс «Multimodal RAG: Chat with Video«. На курсе инженер Intel Labs Васудев Лал рассказывает, как создавать нейросети для поиска и анализа видеоконтента с использованием мультимодальных моделей. Основной…

OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

13 сентября 2024
openai o1

OpenAI выпустила семейство моделей o1 с продвинутой логикой в решении сложных задач

OpenAI представила новое семейство моделей o1, следующее поколение моделей GPT. Модели o1 — в частности, o1-preview и o1-mini — разработаны для выполнения более сложных логических задач, чем их предшественники, и…

LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов

19 августа 2024
agentwrite

LongWriter — открытый фреймворк и набор LLM для генерации текстов длиной до 20000 слов

LongWriter — открытый фреймворк и набор больших языковых моделей (LLMs) для генерации связных и релевантных ответов, превышающих 10 000 слов. Longwriter использует пайплайн AgentWrite, который разбивает задачу генерации длинных текстов…

CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз

30 июля 2024
CRAM

CRAM: новая аппаратная архитектура снижает энергопотребление ИИ в 1000 раз

Исследователи из Университета Миннесоты Твин-Ситис представили архитектуру аппаратного обеспечения Computational Random-Access Memory (CRAM), которая призвана трансформировать вычисления в области ИИ, резко сократив энергопотребление. CRAM способен сократить использование энергии ИИ в…

Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках

24 июля 2024
llama 3.1 human evaluation

Состоялся релиз LLaMA 3.1: открытая модель превосходит GPT-4o и Claude Sonnet 3.5 на бенчмарках

Модели LLaMA 3.1 официально выпущены, включая самую большую открытую модель с 405 миллиардами параметрами, модели 70B и 8B и мультимодальную модель. Контекст расширен до 128K токенов, поддерживается восемь языков, а…