LongLive-2.0: NVIDIA научила модель генерировать длинное видео в реальном времени с квантованием NVFP4

20 мая 2026
Training Infrastructure longlive 2.0

LongLive-2.0: NVIDIA научила модель генерировать длинное видео в реальном времени с квантованием NVFP4

Исследователи из NVIDIA опубликовали LongLive-2.0 — инфраструктуру для обучения и запуска моделей генерации длинного видео с использованием квантования до 4-битной точности NVFP4. Квантование — это сжатие весов модели за счёт…

SenseNova-U1: мультимодальная архитектура NEO-unify работает напрямую с пикселями без VAE

14 мая 2026
SenseNova-U1 Unifying Multimodal model

SenseNova-U1: мультимодальная архитектура NEO-unify работает напрямую с пикселями без VAE

Команда SenseNova представила новую мультимодальную архитектуру SenseNova-U1, которая объединяет понимание изображений, генерацию и редактирование внутри единого трансформера без отдельного визуального энкодера и вариационного автокодировщика. Такой подход убирает необходимость постоянно переводить…

OpenSeeker-v2: лучший в своем классе Deep Research агент, созданный академической командой всего на 10600 примерах

7 мая 2026
OpenSeeker-v2

OpenSeeker-v2: лучший в своем классе Deep Research агент, созданный академической командой всего на 10600 примерах

Исследователи из Шанхайского университета Цзяо Тун доказали, что для создания лучшего в своём классе deep research агента не нужны сотни миллиардов токенов предобучения и дорогостоящее обучение с подкреплением. Достаточно 10…

OpenGame: ИИ-агент создает браузерные 2D-игры с нуля по текстовому описанию

22 апреля 2026
gameengine

OpenGame: ИИ-агент создает браузерные 2D-игры с нуля по текстовому описанию

Команда исследователей из CUHK MMLab опубликовала OpenGame — первый агентный фреймворк для создания браузерных 2D-игр по текстовому описания. Проект полностью открытый: код фреймворка, веса модели GameCoder-27B и датасеты доступны на…

InCoder-32B-Thinking: открытая модель генерации кода для микроконтроллеров, оптимизации GPU-ядер и RTL-проектирования

7 апреля 2026
Overview of InCoder-32B-Thinking

InCoder-32B-Thinking: открытая модель генерации кода для микроконтроллеров, оптимизации GPU-ядер и RTL-проектирования

Команда исследователей из Пекинского авиационного института, Шанхайского транспортного университета, Университета Манчестера и компании IQuest Research опубликовала InCoder-32B-Thinking — языковую модель с расширенной цепочкой рассуждений (chain-of-thought reasoning) для задач разработки кода…

Trinity-Large-Thinking 400B: масшабная открытая reasoning-модель для агентных задач стоит в 28 раз дешевле Claude Opus-4.6

3 апреля 2026
Trinity AI models foundation

Trinity-Large-Thinking 400B: масшабная открытая reasoning-модель для агентных задач стоит в 28 раз дешевле Claude Opus-4.6

Компания Arcee AI выложила в открытый доступ Trinity-Large-Thinking — модель с рассуждениями для сложных многоходовых агентных задач. На PinchBench — главном бенчмарке для агентных задач — она занимает второе место…

PixelSmile: открытая модель для редактирования эмоций на изображениях с плавным контролем интенсивности эмоций

31 марта 2026
PixelSmile

PixelSmile: открытая модель для редактирования эмоций на изображениях с плавным контролем интенсивности эмоций

Исследователи из Fudan University и StepFun опубликовали PixelSmile — диффузионную модель для точного редактирования мимики на портретах и аниме-изображениях. Вместо обучения на дискретных метках, например, «страх/не страх», модель использует непрерывные…

RealRestorer: открытая модель улучшения качества фото обогнала Nano Banana Pro на бенчмарке с реальными снимками

30 марта 2026
Realresorer image restoration open model 2

RealRestorer: открытая модель улучшения качества фото обогнала Nano Banana Pro на бенчмарке с реальными снимками

Команда исследователей из StepFun, Southern University of Science and Technology и Китайской академии наук опубликовала RealRestorer — открытую модель улучшения качества фотографий, которая умеет убирать размытость, шум, дождь, засветку от…

MinerU-Diffusion: новый подход к OCR через диффузионное декодирование ускоряет парсинг PDF в 3 раза без потери точности

27 марта 2026
Miner-U-Diffusion

MinerU-Diffusion: новый подход к OCR через диффузионное декодирование ускоряет парсинг PDF в 3 раза без потери точности

Команда из Shanghai Artificial Intelligence Laboratory и Пекинского университета опубликовала MinerU-Diffusion — фреймворк для распознавания текста в документах (OCR), который отказывается от классической авторегрессивной генерации в пользу диффузионного декодирования. Проект…

daVinci-MagiHuman: открытая 15B-модель генерирует 5-секундное видео с липсинком за 2 секунды на одном H100

24 марта 2026
daVinci-MagiHuman model

daVinci-MagiHuman: открытая 15B-модель генерирует 5-секундное видео с липсинком за 2 секунды на одном H100

Команды SII-GAIR и Sand.ai опубликовали daVinci-MagiHuman — открытую мультимодальную 15B-модель на основе однопоточного трансформера, которая одновременно генерирует видео с липсинком и синхронное аудио и создает 5-секундный клип в 256p за…

Helios: 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100

11 марта 2026

Helios: 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100

Команда исследователей из Пекинского университета и ByteDance опубликовала Helios — авторегрессионную диффузионную трансформер-модель на 14 миллиардов параметров, которая генерирует видео со скоростью 19,5 кадров в секунду на одной видеокарте NVIDIA…

Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах

10 февраля 2026
Baichuan-M3

Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах

Команда исследователей из китайской компании Baichuan представила Baichuan-M3 — открытую медицинскую языковую модель, которая вместо традиционного режима «вопрос-ответ» ведет полноценный клинический диалог, активно собирая анамнез и принимая взвешенные медицинские решения.…

Claude Sonnet 4.5 побеждает на полноценном backend-бенчмарке, лучше всех справившись и с кодом, и с настройкой окружения

22 января 2026
abc-bench-pipeline-workflow

Claude Sonnet 4.5 побеждает на полноценном backend-бенчмарке, лучше всех справившись и с кодом, и с настройкой окружения

Команда исследователей из Fudan University и Shanghai Qiji Zhifeng Co. представила ABC-Bench — первый бенчмарк, который проверяет способность ИИ-агентов решать полноценные задачи backend-разработки: от изучения кода в репозитории до настройки…

Multiplex Thinking: семплинг 3 токенов вместо 1 повышает точность решения олимпиадных задач с 40% до 55%

22 января 2026
multiplex thinking

Multiplex Thinking: семплинг 3 токенов вместо 1 повышает точность решения олимпиадных задач с 40% до 55%

Исследователи из Университета Пенсильвании и Microsoft Research представили Multiplex Thinking — новый метод рассуждения для больших языковых моделей. Идея в том, чтобы на каждом шаге генерировать не один токен, а…

Yume1.5: открытая модель для создания интерактивных миров, управляемая с клавиатуры

5 января 2026
yume 1.5 model

Yume1.5: открытая модель для создания интерактивных миров, управляемая с клавиатуры

Исследователи из Shanghai AI Laboratory и Fudan University опубликовали Yume1.5 — модель для генерации интерактивных виртуальных миров, которыми можно управлять прямо с клавиатуры. В отличие от обычной генерации видео, здесь…

AI-модели на 13% хуже людей распознают сгенерированные ASMR-видео

18 декабря 2025
AI-generated video

AI-модели на 13% хуже людей распознают сгенерированные ASMR-видео

Исследователи из CUHK, NUS, University of Oxford и Video Rebirth представили Video Reality Test — первый бенчмарк, который проверяет, могут ли современные AI-модели создавать видео, неотличимые от настоящих. В отличие…

Wan-Move: открытая альтернатива Kling 1.5 Pro для контролируемой генерации движений на видео

13 декабря 2025
WAN_MOVE video editor

Wan-Move: открытая альтернатива Kling 1.5 Pro для контролируемой генерации движений на видео

Команда исследователей из Tongyi Lab (Alibaba Group), Университета Цинхуа и Гонконгского университета представила Wan-Move — новый подход к точному контролю движения в генеративных видео-моделях. В отличие от существующих методов, которые…

Открытая модель впервые получила золотую медаль на Международной физической олимпиаде IPhO 2025

30 ноября 2025

Открытая модель впервые получила золотую медаль на Международной физической олимпиаде IPhO 2025

Модель P1-235B-A22B от Shanghai AI Laboratory стала первой открытой моделью, которая получила золотую медаль на последней Международной физической олимпиаде IPhO 2025, набрав 21.2 балла из 30 и заняв третье место после…

MiroThinker v1.0: открытый ИИ-агент для исследований научился делать до 600 вызовов инструментов на задачу

20 ноября 2025
mirothinker v1.0 benchmarks comparison

MiroThinker v1.0: открытый ИИ-агент для исследований научился делать до 600 вызовов инструментов на задачу

Команда MiroMind представила MiroThinker v1.0 — ИИ-агент для исследований, выполняющий до 600 вызовов инструментов на одну задачу при контекстном окне размером 256К токенов. На четырёх ключевых бенчмарках — GAIA, HLE,…

DeepEyesV2: мультимодальная модель научилась использовать инструменты для решения сложных задач

12 ноября 2025
deepeyesv2-illustration

DeepEyesV2: мультимодальная модель научилась использовать инструменты для решения сложных задач

Исследователи из компании Xiaohongshu представили DeepEyesV2 — агентную мультимодальную модель на базе Qwen2.5-VL-7B, которая умеет не просто понимать текст и изображения, но и активно использовать внешние инструменты: выполнять код на…

DTM: новая аппаратная архитектура снижает энергопотребление до 10000 раз по сравнению с GPU

1 ноября 2025

DTM: новая аппаратная архитектура снижает энергопотребление до 10000 раз по сравнению с GPU

Исследователи из Extropic Corporation представили эффективную аппаратную архитектуру для вероятностных вычислений, основанную на Denoising Thermodynamic Models (DTM). Анализ показывает, что устройства на базе этой архитектуры могут достичь паритета производительности с…