OpenGame: ИИ-агент создает полноценные игры с нуля по текстовому описанию
22 апреля 2026
OpenGame: ИИ-агент создает полноценные игры с нуля по текстовому описанию
Команда исследователей из CUHK MMLab опубликовала OpenGame — первый агентный фреймворк для создания браузерных 2D-игр по текстовому описания. Проект полностью открытый: код фреймворка, веса модели GameCoder-27B и датасеты доступны на…
ChatGPT Images 2.0: OpenAI запустила обновление модели генерации изображений с рассуждениям, 2K-разрешением и мультиязычным текстом
22 апреля 2026
ChatGPT Images 2.0: OpenAI запустила обновление модели генерации изображений с рассуждениям, 2K-разрешением и мультиязычным текстом
21 апреля 2026 года OpenAI выпустила ChatGPT Images 2.0 на базе модели gpt-image-2. По данным LM Arena, новая модель сразу заняла первое место во всех категориях генерации изображений с отрывом…
ClawGUI: первый открытый фреймворк полного цикла для GUI-агентов от обучения до реального устройства
15 апреля 2026
ClawGUI: первый открытый фреймворк полного цикла для GUI-агентов от обучения до реального устройства
Исследователи из Чжэцзянского университета опубликовали ClawGUI — полностью открытый фреймворк для разработки GUI-агентов, которые управляют приложениями через визуальный интерфейс, как это делает человек: касаниями, свайпами и вводом текста. На практике…
ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач
13 апреля 2026
ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач
ClawBench — бенчмарк, который проверяет, могут ли ИИ-агенты выполнять настоящие повседневные задачи в интернете: забронировать рейс, откликнуться на вакансию, оформить заказ. Результаты показали, что даже сильнейшая модель — Claude Sonnet…
InCoder-32B-Thinking: открытая модель генерации кода для микроконтроллеров, оптимизации GPU-ядер и RTL-проектирования
7 апреля 2026
InCoder-32B-Thinking: открытая модель генерации кода для микроконтроллеров, оптимизации GPU-ядер и RTL-проектирования
Команда исследователей из Пекинского авиационного института, Шанхайского транспортного университета, Университета Манчестера и компании IQuest Research опубликовала InCoder-32B-Thinking — языковую модель с расширенной цепочкой рассуждений (chain-of-thought reasoning) для задач разработки кода…
Trinity-Large-Thinking 400B: масшабная открытая reasoning-модель для агентных задач стоит в 28 раз дешевле Claude Opus-4.6
3 апреля 2026
Trinity-Large-Thinking 400B: масшабная открытая reasoning-модель для агентных задач стоит в 28 раз дешевле Claude Opus-4.6
Компания Arcee AI выложила в открытый доступ Trinity-Large-Thinking — модель с рассуждениями для сложных многоходовых агентных задач. На PinchBench — главном бенчмарке для агентных задач — она занимает второе место…
PixelSmile: открытая модель для редактирования эмоций на изображениях с плавным контролем интенсивности эмоций
31 марта 2026
PixelSmile: открытая модель для редактирования эмоций на изображениях с плавным контролем интенсивности эмоций
Исследователи из Fudan University и StepFun опубликовали PixelSmile — диффузионную модель для точного редактирования мимики на портретах и аниме-изображениях. Вместо обучения на дискретных метках, например, «страх/не страх», модель использует непрерывные…
RealRestorer: открытая модель улучшения качества фото обогнала Nano Banana Pro на бенчмарке с реальными снимками
30 марта 2026
RealRestorer: открытая модель улучшения качества фото обогнала Nano Banana Pro на бенчмарке с реальными снимками
Команда исследователей из StepFun, Southern University of Science and Technology и Китайской академии наук опубликовала RealRestorer — открытую модель улучшения качества фотографий, которая умеет убирать размытость, шум, дождь, засветку от…
MinerU-Diffusion: новый подход к OCR через диффузионное декодирование ускоряет парсинг PDF в 3 раза без потери точности
27 марта 2026
MinerU-Diffusion: новый подход к OCR через диффузионное декодирование ускоряет парсинг PDF в 3 раза без потери точности
Команда из Shanghai Artificial Intelligence Laboratory и Пекинского университета опубликовала MinerU-Diffusion — фреймворк для распознавания текста в документах (OCR), который отказывается от классической авторегрессивной генерации в пользу диффузионного декодирования. Проект…
daVinci-MagiHuman: открытая 15B-модель генерирует 5-секундное видео с липсинком за 2 секунды на одном H100
24 марта 2026
daVinci-MagiHuman: открытая 15B-модель генерирует 5-секундное видео с липсинком за 2 секунды на одном H100
Команды SII-GAIR и Sand.ai опубликовали daVinci-MagiHuman — открытую мультимодальную 15B-модель на основе однопоточного трансформера, которая одновременно генерирует видео с липсинком и синхронное аудио и создает 5-секундный клип в 256p за…
OpenClaw: лобстер, который захватил мир. ИИ-агент работает локально и управляется через мессенджеры
18 марта 2026
OpenClaw: лобстер, который захватил мир. ИИ-агент работает локально и управляется через мессенджеры
OpenClaw — открытый ИИ-агент, созданный австрийским разработчиком Питером Штайнбергером в ноябре 2025 года. ИИ-агент — это программная оболочка вокруг языковой модели, которая не просто генерирует текст в ответ на запрос,…
OpenClaw-RL: ИИ-агент учится на собственных ошибках через реакции пользователя и среды, обновляя веса на ходу
17 марта 2026
OpenClaw-RL: ИИ-агент учится на собственных ошибках через реакции пользователя и среды, обновляя веса на ходу
Исследователи из Princeton University предложили фреймворк OpenClaw-RL, позволяющий ИИ-агенту улучшаться в режиме реального времени — без отдельного этапа сбора данных и без ручной разметки. Большинство RL-фреймворков для языковых моделей работают…
Helios: 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100
11 марта 2026
Helios: 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100
Команда исследователей из Пекинского университета и ByteDance опубликовала Helios — авторегрессионную диффузионную трансформер-модель на 14 миллиардов параметров, которая генерирует видео со скоростью 19,5 кадров в секунду на одной видеокарте NVIDIA…
VBVR: открытый датасет на 2 миллиона видео для обучения видеомоделей рассуждению
26 февраля 2026
VBVR: открытый датасет на 2 миллиона видео для обучения видеомоделей рассуждению
Команда из более чем 50 исследователей со всего мира — из Berkeley, Stanford, CMU, Oxford и других университетов — опубликовала Very Big Video Reasoning (VBVR) — огромный набор данных для…
GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах
19 февраля 2026
GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах
Zhipu AI и Tsinghua University опубликовали техрепорт GLM-5 — на сегодня лучшей открытой языковой модели по бенчмаркам: первое место среди open-weight моделей на Artificial Analysis и топ-1 в кодинге и…
Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах
10 февраля 2026
Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах
Команда исследователей из китайской компании Baichuan представила Baichuan-M3 — открытую медицинскую языковую модель, которая вместо традиционного режима «вопрос-ответ» ведет полноценный клинический диалог, активно собирая анамнез и принимая взвешенные медицинские решения.…
Claude Sonnet 4.5 побеждает на полноценном backend-бенчмарке, лучше всех справившись и с кодом, и с настройкой окружения
22 января 2026
Claude Sonnet 4.5 побеждает на полноценном backend-бенчмарке, лучше всех справившись и с кодом, и с настройкой окружения
Команда исследователей из Fudan University и Shanghai Qiji Zhifeng Co. представила ABC-Bench — первый бенчмарк, который проверяет способность ИИ-агентов решать полноценные задачи backend-разработки: от изучения кода в репозитории до настройки…
Multiplex Thinking: семплинг 3 токенов вместо 1 повышает точность решения олимпиадных задач с 40% до 55%
22 января 2026
Multiplex Thinking: семплинг 3 токенов вместо 1 повышает точность решения олимпиадных задач с 40% до 55%
Исследователи из Университета Пенсильвании и Microsoft Research представили Multiplex Thinking — новый метод рассуждения для больших языковых моделей. Идея в том, чтобы на каждом шаге генерировать не один токен, а…
Yume1.5: открытая модель для создания интерактивных миров, управляемая с клавиатуры
5 января 2026
Yume1.5: открытая модель для создания интерактивных миров, управляемая с клавиатуры
Исследователи из Shanghai AI Laboratory и Fudan University опубликовали Yume1.5 — модель для генерации интерактивных виртуальных миров, которыми можно управлять прямо с клавиатуры. В отличие от обычной генерации видео, здесь…
AI-модели на 13% хуже людей распознают сгенерированные ASMR-видео
18 декабря 2025
AI-модели на 13% хуже людей распознают сгенерированные ASMR-видео
Исследователи из CUHK, NUS, University of Oxford и Video Rebirth представили Video Reality Test — первый бенчмарк, который проверяет, могут ли современные AI-модели создавать видео, неотличимые от настоящих. В отличие…
Wan-Move: открытая альтернатива Kling 1.5 Pro для контролируемой генерации движений на видео
13 декабря 2025
Wan-Move: открытая альтернатива Kling 1.5 Pro для контролируемой генерации движений на видео
Команда исследователей из Tongyi Lab (Alibaba Group), Университета Цинхуа и Гонконгского университета представила Wan-Move — новый подход к точному контролю движения в генеративных видео-моделях. В отличие от существующих методов, которые…


















