От миллионов долларов на «спасибо» к эффективному инференсу: детекция шаблонных ответов за один токен

31 октября 2025
Detecting Boilerplate Responses LLM

От миллионов долларов на «спасибо» к эффективному инференсу: детекция шаблонных ответов за один токен

Исследователи JFrog опубликовали работу, демонстрирующую метод раннего обнаружения шаблонных ответов (boilerplate responses) больших языковых моделей после генерации всего одного токена. Метод позволяет оптимизировать вычислительные затраты через досрочное прерывание генерации или…

Ditto: открытый фреймворк для редактирования стиля и объектов на видео по текстовым инструкциям с 99% согласованностью кадров

24 октября 2025
ditto editto framework

Ditto: открытый фреймворк для редактирования стиля и объектов на видео по текстовым инструкциям с 99% согласованностью кадров

Исследователи из HKUST, Ant Group, Zhejiang University и Northeastern University представили Ditto — комплексный открытый фреймворк для решения проблемы дефицита обучающих данных в редактировании видео по текстовым инструкциям. Разработчики создали…

QeRL: 32B модель обучается с подкреплением на одном GPU H100 вместо трех, превосходя LoRA в точности

16 октября 2025
QeRL rainforcement learning quantization training speedup

QeRL: 32B модель обучается с подкреплением на одном GPU H100 вместо трех, превосходя LoRA в точности

QeRL — фреймворк для обучения языковых моделей методом обучения с подкреплением, который одновременно снижает требования к GPU и превосходит в точности традиционные методы LoRA и QLoRA. На модели Qwen2.5-7B-Instruct QeRL…

Kimi-K2 и Qwen3-235B — лучшие нейросети для торговли акциями на бирже, выяснили китайские исследователи

10 октября 2025
stocks trading with AI

Kimi-K2 и Qwen3-235B — лучшие нейросети для торговли акциями на бирже, выяснили китайские исследователи

Исследователи из Китая провели масштабное сравнение способностей нейросетей для торговли акциями на реальных рыночных данных. ИИ-агенты управляли портфелем из 20 акций индекса Dow Jones на бирже в течение 4 месяцев…

MinerU2.5 — открытая 1.2B-модель для парсинга PDF документов превосходит Gemini 2.5 Pro на бенчмарках

2 октября 2025
minerU2.5 comparison PDF parsing model

MinerU2.5 — открытая 1.2B-модель для парсинга PDF документов превосходит Gemini 2.5 Pro на бенчмарках

MinerU2.5 — компактная vision-language модель с 1.2 миллиардами параметров для парсинга PDF документов, представленная командой Shanghai Artificial Intelligence Laboratory. Модель достигает state-of-the-art результатов в парсинге PDF при минимальных вычислительных затратах…

LongLive — 1.3B модель генерации видео со скоростью 20.7 FPS, позволяющая управлять сценарием в реальном времени

30 сентября 2025
longlive 2

LongLive — 1.3B модель генерации видео со скоростью 20.7 FPS, позволяющая управлять сценарием в реальном времени

Команда исследователей из NVIDIA, MIT и других институтов представила LongLive — фреймворк для генерации длинных видео в реальном времени, которые позволяет управлять сюжетом по ходу создания ролика. В отличие от…

WebWeaver — открытый фреймворк для глубоких исследований преводсходит OpenAI DeepResearch, Gemini Deep Research на бенчмарках

17 сентября 2025
Tongyi-DeepResearch-30B-A3B results webweaver deepresearch

WebWeaver — открытый фреймворк для глубоких исследований преводсходит OpenAI DeepResearch, Gemini Deep Research на бенчмарках

Исследователи из Tongyi Lab (Alibaba Group) представили WebWeaver — открытый двухагентный фреймворк для глубоких исследований, который симулирует человеческий исследовательский процесс. Фреймворк состоит из планировщика, который итеративно чередует веб-поиск источников и…

Mini-o3: открытая мультимодальная 7B-модель превзошла GPT-4o в визуальном поиске благодаря 30-шаговым цепочкам рассуждений

10 сентября 2025
Observation mini-o3

Mini-o3: открытая мультимодальная 7B-модель превзошла GPT-4o в визуальном поиске благодаря 30-шаговым цепочкам рассуждений

Исследователи из ByteDance и Университета Гонконга представили Mini-o3 — мультимодальную модель, которая выполняет глубокие многошаговые рассуждения для решения сложных задач визуального поиска. Mini-o3 достигает SOTA результатов на сложных бенчмарках, превосходя…

Matrix-3D: открытый фреймворк для генерации всенаправленных исследуемых 3D-миров из одного изображения

14 августа 2025
matrix 3d

Matrix-3D: открытый фреймворк для генерации всенаправленных исследуемых 3D-миров из одного изображения

Исследователи из Skywork AI, Гонконгского университета науки и технологий представили Matrix-3D — фреймворк для создания полностью исследуемых трехмерных миров из одного изображения или текстового описания. Matrix-3D решает проблему ограниченного поля…

3D-R1: открытая модель с рассуждениями для 3D-сцен превосходит современные методы на 10% на 3D-бенчмарках

6 августа 2025
3D-R1 model

3D-R1: открытая модель с рассуждениями для 3D-сцен превосходит современные методы на 10% на 3D-бенчмарках

Исследователи из Шанхайского университета инженерных наук и Пекинского университета представили 3D-R1 — новую foundation-модель, которая значительно улучшает способности к рассуждению в трёхмерных vision-language моделях (VLM).  Модель демонстрирует среднее улучшение производительности…

Show-o2: открытая мультимодальная 7B модель обходит 14B-модели на бенчмарках, используя в разы меньше данных для обучения

11 июля 2025

Show-o2: открытая мультимодальная 7B модель обходит 14B-модели на бенчмарках, используя в разы меньше данных для обучения

Исследователи из Show Lab Национального университета Сингапура и ByteDance представили Show-o2 — второе поколение мультимодальной модели, которая демонстрирует превосходные результаты в задачах понимания и генерации изображений и видео. Show-o2 использует…

Фреймворк TreeQuest: адаптивные команды LLM превосходят отдельные модели на 30%

8 июля 2025
treequest

Фреймворк TreeQuest: адаптивные команды LLM превосходят отдельные модели на 30%

Исследователи из Sakana AI представили Adaptive Branching Monte Carlo Tree Search (AB-MCTS) — революционный подход к созданию «команд мечты» из больших языковых моделей, который позволяет им динамически сотрудничать для решения…

MiniCPM4: открытая локальная модель достигает производительности Qwen3-8B при 7-кратном ускорении инференса

15 июня 2025
end devices llm

MiniCPM4: открытая локальная модель достигает производительности Qwen3-8B при 7-кратном ускорении инференса

Команда исследователей OpenBMB представила MiniCPM4 — высокоэффективную языковую модель, разработанную специально для локальных устройств. MiniCPM4-8B достигает сопоставимой с Qwen3-8B производительности (81.13 против 80.55), при этом для обучения требуется в 4.5…

Строгое on-policy обучение с оптимальным бейзлайном: Microsoft представила упрощенный алгоритм для RLHF

4 июня 2025
On-Policy RL with Optimal Reward Baseline

Строгое on-policy обучение с оптимальным бейзлайном: Microsoft представила упрощенный алгоритм для RLHF

Исследовательская команда Microsoft Research представила On-Policy RL with Optimal reward baseline (OPO) — упрощенный алгоритм обучения с подкреплением для выравнивания больших языковых моделей. Новый метод решает ключевые проблемы современных RLHF…

Visual-ARFT: новый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах

22 мая 2025
Диаграмма процесса обучения Visual-ARFT

Visual-ARFT: новый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах

Исследовательская группа из Шанхайского университета Цзяо Тонг и Шанхайской лаборатории искусственного интеллекта представила Visual Agentic Reinforcement Fine-Tuning (Visual-ARFT) — новый подход к обучению крупных мультимодальных моделей агентным возможностям. Методика демонстрирует…

NVIDIA Isaac 5.0: обучение роботов с продвинутой физикой сенсоров и генерацией синтетических данных с открытым кодом

19 мая 2025
NVIDIA Isaac robotics platform showing a humanoid robot interacting with objects

NVIDIA Isaac 5.0: обучение роботов с продвинутой физикой сенсоров и генерацией синтетических данных с открытым кодом

NVIDIA представила обновления своей экосистемы Isaac для разработки роботов на выставке COMPUTEX 2025, которые улучшают возможности генерации синтетических данных и совершенствуют тестирование моделей на всех этапах разработки. Isaac Sim 5.0:…

ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%

9 мая 2025
zerosearch method

ZEROSEARCH: открытый фреймворк, снижающий затраты на обучение LLM поиску на 88%

Исследовательская команда NLP Alibaba официально открыла исходный код ZEROSEARCH, полноценного фреймворка для обучения LLM способности к поиску в интернете без использования реальных поисковых систем. ZEROSEARCH основан на ключевом наблюдении: LLM…

Phi-4-reasoning: 14B модель от Microsoft превосходит масштабные модели в задачах сложного рассуждения

4 мая 2025
phi-4-reasoning-model

Phi-4-reasoning: 14B модель от Microsoft превосходит масштабные модели в задачах сложного рассуждения

Microsoft представила модель Phi-4-reasoning с 14 миллиардами параметров, которая демонстрирует исключительную производительность на сложных задачах рассуждения, превосходя модели, превышающие её по размеру в 5-47 раз, и требуя значительно меньше вычислительных…

DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent

21 апреля 2025
deepmath reasoning dataset ai

DeepMath-103K: датасет для обучения с подкреплением моделей рассуждения от Tencent

Исследователи из Tencent и Шанхайского университета Цзяо Тонг опубликовали DeepMath-103K — крупный математический датасет, созданный для разработки продвинутых моделей рассуждения с помощью обучения с подкреплением. Создание набора данных стоило исследователям…

MedSAM2: открытая SOTA модель сегментации медицинских 3D-изображений и видео

13 апреля 2025
medsam2 human in the loop

MedSAM2: открытая SOTA модель сегментации медицинских 3D-изображений и видео

В последние годы был достигнут значительный прогресс в разработке как специализированных, так и универсальных моделей сегментации 2D медицинских изображений, однако область 3D и видеосегментации остается недостаточно исследованной. Группа исследователей из…

Llama Nemotron: семейство открытых моделей от Nvidia обходит DeepSeek R1 в рассуждении и математике

19 марта 2025
llama nemotron 3.3

Llama Nemotron: семейство открытых моделей от Nvidia обходит DeepSeek R1 в рассуждении и математике

NVIDIA анонсировала семейство открытых моделей Llama Nemotron с продвинутыми возможностями в задачах рассуждения. Дообучение моделей Llama 3.3 и 3.1 позволило Nvidia улучшить их точность на 20% при достижении в 5…