Open source / Нейросети и глубокое обучение

VBVR: открытый датасет на 2 миллиона видео для обучения видеомоделей рассуждению

26 февраля 2026

VBVR: открытый датасет на 2 миллиона видео для обучения видеомоделей рассуждению

Команда из более чем 50 исследователей со всего мира — из Berkeley, Stanford, CMU, Oxford и других университетов — опубликовала Very Big Video Reasoning (VBVR) — огромный набор данных для…

GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах

19 февраля 2026

GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах

Zhipu AI и Tsinghua University опубликовали техрепорт GLM-5 — на сегодня лучшей открытой языковой модели по бенчмаркам: первое место среди open-weight моделей на Artificial Analysis и топ-1 в кодинге и…

Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах

10 февраля 2026

Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах

Команда исследователей из китайской компании Baichuan представила Baichuan-M3 — открытую медицинскую языковую модель, которая вместо традиционного режима «вопрос-ответ» ведет полноценный клинический диалог, активно собирая анамнез и принимая взвешенные медицинские решения.…

Claude Sonnet 4.5 побеждает на полноценном backend-бенчмарке, лучше всех справившись и с кодом, и с настройкой окружения

22 января 2026

Claude Sonnet 4.5 побеждает на полноценном backend-бенчмарке, лучше всех справившись и с кодом, и с настройкой окружения

Команда исследователей из Fudan University и Shanghai Qĳi Zhifeng Co. представила ABC-Bench — первый бенчмарк, который проверяет способность ИИ-агентов решать полноценные задачи backend-разработки: от изучения кода в репозитории до настройки…

Multiplex Thinking: семплинг 3 токенов вместо 1 повышает точность решения олимпиадных задач с 40% до 55%

22 января 2026

Multiplex Thinking: семплинг 3 токенов вместо 1 повышает точность решения олимпиадных задач с 40% до 55%

Исследователи из Университета Пенсильвании и Microsoft Research представили Multiplex Thinking — новый метод рассуждения для больших языковых моделей. Идея в том, чтобы на каждом шаге генерировать не один токен, а…

Yume1.5: открытая модель для создания интерактивных миров, управляемая с клавиатуры

5 января 2026

Yume1.5: открытая модель для создания интерактивных миров, управляемая с клавиатуры

Исследователи из Shanghai AI Laboratory и Fudan University опубликовали Yume1.5 — модель для генерации интерактивных виртуальных миров, которыми можно управлять прямо с клавиатуры. В отличие от обычной генерации видео, здесь…

AI-модели на 13% хуже людей распознают сгенерированные ASMR-видео

18 декабря 2025

AI-модели на 13% хуже людей распознают сгенерированные ASMR-видео

Исследователи из CUHK, NUS, University of Oxford и Video Rebirth представили Video Reality Test — первый бенчмарк, который проверяет, могут ли современные AI-модели создавать видео, неотличимые от настоящих. В отличие…

Wan-Move: открытая альтернатива Kling 1.5 Pro для контролируемой генерации движений на видео

13 декабря 2025

Wan-Move: открытая альтернатива Kling 1.5 Pro для контролируемой генерации движений на видео

Команда исследователей из Tongyi Lab (Alibaba Group), Университета Цинхуа и Гонконгского университета представила Wan-Move — новый подход к точному контролю движения в генеративных видео-моделях. В отличие от существующих методов, которые…

Открытая модель впервые получила золотую медаль на Международной физической олимпиаде IPhO 2025

30 ноября 2025

Открытая модель впервые получила золотую медаль на Международной физической олимпиаде IPhO 2025

Модель P1-235B-A22B от Shanghai AI Laboratory стала первой открытой моделью, которая получила золотую медаль на последней Международной физической олимпиаде IPhO 2025, набрав 21.2 балла из 30 и заняв третье место после…

MiroThinker v1.0: открытый ИИ-агент для исследований научился делать до 600 вызовов инструментов на задачу

20 ноября 2025

MiroThinker v1.0: открытый ИИ-агент для исследований научился делать до 600 вызовов инструментов на задачу

Команда MiroMind представила MiroThinker v1.0 — ИИ-агент для исследований, выполняющий до 600 вызовов инструментов на одну задачу при контекстном окне размером 256К токенов. На четырёх ключевых бенчмарках — GAIA, HLE,…

DeepEyesV2: мультимодальная модель научилась использовать инструменты для решения сложных задач

12 ноября 2025

DeepEyesV2: мультимодальная модель научилась использовать инструменты для решения сложных задач

Исследователи из компании Xiaohongshu представили DeepEyesV2 — агентную мультимодальную модель на базе Qwen2.5-VL-7B, которая умеет не просто понимать текст и изображения, но и активно использовать внешние инструменты: выполнять код на…

Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров

4 ноября 2025

Remote Labor Index: ведущие ИИ-агенты справились с 2.5% реальных задач с биржи фрилансеров

Команда исследователей из Center for AI Safety и Scale AI опубликовала Remote Labor Index (RLI) — первый бенчмарк, который проверяет, могут ли ИИ-агенты делать настоящую работу фрилансеров. Они собрали 240…

От миллионов долларов на «спасибо» к эффективному инференсу: детекция шаблонных ответов за один токен

31 октября 2025

От миллионов долларов на «спасибо» к эффективному инференсу: детекция шаблонных ответов за один токен

Исследователи JFrog опубликовали работу, демонстрирующую метод раннего обнаружения шаблонных ответов (boilerplate responses) больших языковых моделей после генерации всего одного токена. Метод позволяет оптимизировать вычислительные затраты через досрочное прерывание генерации или…

Ditto: открытый фреймворк для редактирования стиля и объектов на видео по текстовым инструкциям с 99% согласованностью кадров

24 октября 2025

Ditto: открытый фреймворк для редактирования стиля и объектов на видео по текстовым инструкциям с 99% согласованностью кадров

Исследователи из HKUST, Ant Group, Zhejiang University и Northeastern University представили Ditto — комплексный открытый фреймворк для решения проблемы дефицита обучающих данных в редактировании видео по текстовым инструкциям. Разработчики создали…

QeRL: 32B модель обучается с подкреплением на одном GPU H100 вместо трех, превосходя LoRA в точности

16 октября 2025

QeRL rainforcement learning quantization training speedup

QeRL: 32B модель обучается с подкреплением на одном GPU H100 вместо трех, превосходя LoRA в точности

QeRL — фреймворк для обучения языковых моделей методом обучения с подкреплением, который одновременно снижает требования к GPU и превосходит в точности традиционные методы LoRA и QLoRA. На модели Qwen2.5-7B-Instruct QeRL…

Kimi-K2 и Qwen3-235B — лучшие нейросети для торговли акциями на бирже, выяснили китайские исследователи

10 октября 2025

Kimi-K2 и Qwen3-235B — лучшие нейросети для торговли акциями на бирже, выяснили китайские исследователи

Исследователи из Китая провели масштабное сравнение способностей нейросетей для торговли акциями на реальных рыночных данных. ИИ-агенты управляли портфелем из 20 акций индекса Dow Jones на бирже в течение 4 месяцев…

MinerU2.5 — открытая 1.2B-модель для парсинга PDF документов превосходит Gemini 2.5 Pro на бенчмарках

2 октября 2025

MinerU2.5 — открытая 1.2B-модель для парсинга PDF документов превосходит Gemini 2.5 Pro на бенчмарках

MinerU2.5 — компактная vision-language модель с 1.2 миллиардами параметров для парсинга PDF документов, представленная командой Shanghai Artificial Intelligence Laboratory. Модель достигает state-of-the-art результатов в парсинге PDF при минимальных вычислительных затратах…

LongLive — 1.3B модель генерации видео со скоростью 20.7 FPS, позволяющая управлять сценарием в реальном времени

30 сентября 2025

LongLive — 1.3B модель генерации видео со скоростью 20.7 FPS, позволяющая управлять сценарием в реальном времени

Команда исследователей из NVIDIA, MIT и других институтов представила LongLive — фреймворк для генерации длинных видео в реальном времени, которые позволяет управлять сюжетом по ходу создания ролика. В отличие от…

WebWeaver — открытый фреймворк для глубоких исследований преводсходит OpenAI DeepResearch, Gemini Deep Research на бенчмарках

17 сентября 2025

Tongyi-DeepResearch-30B-A3B results webweaver deepresearch

WebWeaver — открытый фреймворк для глубоких исследований преводсходит OpenAI DeepResearch, Gemini Deep Research на бенчмарках

Исследователи из Tongyi Lab (Alibaba Group) представили WebWeaver — открытый двухагентный фреймворк для глубоких исследований, который симулирует человеческий исследовательский процесс. Фреймворк состоит из планировщика, который итеративно чередует веб-поиск источников и…

Mini-o3: открытая мультимодальная 7B-модель превзошла GPT-4o в визуальном поиске благодаря 30-шаговым цепочкам рассуждений

10 сентября 2025

Mini-o3: открытая мультимодальная 7B-модель превзошла GPT-4o в визуальном поиске благодаря 30-шаговым цепочкам рассуждений

Исследователи из ByteDance и Университета Гонконга представили Mini-o3 — мультимодальную модель, которая выполняет глубокие многошаговые рассуждения для решения сложных задач визуального поиска. Mini-o3 достигает SOTA результатов на сложных бенчмарках, превосходя…

Matrix-3D: открытый фреймворк для генерации всенаправленных исследуемых 3D-миров из одного изображения

14 августа 2025

Matrix-3D: открытый фреймворк для генерации всенаправленных исследуемых 3D-миров из одного изображения

Исследователи из Skywork AI, Гонконгского университета науки и технологий представили Matrix-3D — фреймворк для создания полностью исследуемых трехмерных миров из одного изображения или текстового описания. Matrix-3D решает проблему ограниченного поля…