OpenGame: ИИ-агент создает полноценные игры с нуля по текстовому описанию

22 апреля 2026

OpenGame: ИИ-агент создает полноценные игры с нуля по текстовому описанию

Команда исследователей из CUHK MMLab опубликовала OpenGame — первый агентный фреймворк для создания браузерных 2D-игр по текстовому описания. Проект полностью открытый: код фреймворка, веса модели GameCoder-27B и датасеты доступны на…

ChatGPT Images 2.0: OpenAI запустила обновление модели генерации изображений с рассуждениям, 2K-разрешением и мультиязычным текстом

22 апреля 2026
gpt-images-2

ChatGPT Images 2.0: OpenAI запустила обновление модели генерации изображений с рассуждениям, 2K-разрешением и мультиязычным текстом

21 апреля 2026 года OpenAI выпустила ChatGPT Images 2.0 на базе модели gpt-image-2. По данным LM Arena, новая модель сразу заняла первое место во всех категориях генерации изображений с отрывом…

ClawGUI: первый открытый фреймворк полного цикла для GUI-агентов от обучения до реального устройства

15 апреля 2026

ClawGUI: первый открытый фреймворк полного цикла для GUI-агентов от обучения до реального устройства

Исследователи из Чжэцзянского университета опубликовали ClawGUI — полностью открытый фреймворк для разработки GUI-агентов, которые управляют приложениями через визуальный интерфейс, как это делает человек: касаниями, свайпами и вводом текста. На практике…

ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач

13 апреля 2026

ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач

ClawBench — бенчмарк, который проверяет, могут ли ИИ-агенты выполнять настоящие повседневные задачи в интернете: забронировать рейс, откликнуться на вакансию, оформить заказ. Результаты показали, что даже сильнейшая модель — Claude Sonnet…

InCoder-32B-Thinking: открытая модель генерации кода для микроконтроллеров, оптимизации GPU-ядер и RTL-проектирования

7 апреля 2026
Overview of InCoder-32B-Thinking

InCoder-32B-Thinking: открытая модель генерации кода для микроконтроллеров, оптимизации GPU-ядер и RTL-проектирования

Команда исследователей из Пекинского авиационного института, Шанхайского транспортного университета, Университета Манчестера и компании IQuest Research опубликовала InCoder-32B-Thinking — языковую модель с расширенной цепочкой рассуждений (chain-of-thought reasoning) для задач разработки кода…

Trinity-Large-Thinking 400B: масшабная открытая reasoning-модель для агентных задач стоит в 28 раз дешевле Claude Opus-4.6

3 апреля 2026
Trinity AI models foundation

Trinity-Large-Thinking 400B: масшабная открытая reasoning-модель для агентных задач стоит в 28 раз дешевле Claude Opus-4.6

Компания Arcee AI выложила в открытый доступ Trinity-Large-Thinking — модель с рассуждениями для сложных многоходовых агентных задач. На PinchBench — главном бенчмарке для агентных задач — она занимает второе место…

PixelSmile: открытая модель для редактирования эмоций на изображениях с плавным контролем интенсивности эмоций

31 марта 2026
PixelSmile

PixelSmile: открытая модель для редактирования эмоций на изображениях с плавным контролем интенсивности эмоций

Исследователи из Fudan University и StepFun опубликовали PixelSmile — диффузионную модель для точного редактирования мимики на портретах и аниме-изображениях. Вместо обучения на дискретных метках, например, «страх/не страх», модель использует непрерывные…

RealRestorer: открытая модель улучшения качества фото обогнала Nano Banana Pro на бенчмарке с реальными снимками

30 марта 2026
Realresorer image restoration open model 2

RealRestorer: открытая модель улучшения качества фото обогнала Nano Banana Pro на бенчмарке с реальными снимками

Команда исследователей из StepFun, Southern University of Science and Technology и Китайской академии наук опубликовала RealRestorer — открытую модель улучшения качества фотографий, которая умеет убирать размытость, шум, дождь, засветку от…

MinerU-Diffusion: новый подход к OCR через диффузионное декодирование ускоряет парсинг PDF в 3 раза без потери точности

27 марта 2026
Miner-U-Diffusion

MinerU-Diffusion: новый подход к OCR через диффузионное декодирование ускоряет парсинг PDF в 3 раза без потери точности

Команда из Shanghai Artificial Intelligence Laboratory и Пекинского университета опубликовала MinerU-Diffusion — фреймворк для распознавания текста в документах (OCR), который отказывается от классической авторегрессивной генерации в пользу диффузионного декодирования. Проект…

daVinci-MagiHuman: открытая 15B-модель генерирует 5-секундное видео с липсинком за 2 секунды на одном H100

24 марта 2026
daVinci-MagiHuman model

daVinci-MagiHuman: открытая 15B-модель генерирует 5-секундное видео с липсинком за 2 секунды на одном H100

Команды SII-GAIR и Sand.ai опубликовали daVinci-MagiHuman — открытую мультимодальную 15B-модель на основе однопоточного трансформера, которая одновременно генерирует видео с липсинком и синхронное аудио и создает 5-секундный клип в 256p за…

OpenClaw: лобстер, который захватил мир. ИИ-агент работает локально и управляется через мессенджеры

18 марта 2026
openclaw AI agent

OpenClaw: лобстер, который захватил мир. ИИ-агент работает локально и управляется через мессенджеры

OpenClaw — открытый ИИ-агент, созданный австрийским разработчиком Питером Штайнбергером в ноябре 2025 года. ИИ-агент — это программная оболочка вокруг языковой модели, которая не просто генерирует текст в ответ на запрос,…

OpenClaw-RL: ИИ-агент учится на собственных ошибках через реакции пользователя и среды, обновляя веса на ходу

17 марта 2026
OpenClaw-RL agent

OpenClaw-RL: ИИ-агент учится на собственных ошибках через реакции пользователя и среды, обновляя веса на ходу

Исследователи из Princeton University предложили фреймворк OpenClaw-RL, позволяющий ИИ-агенту улучшаться в режиме реального времени — без отдельного этапа сбора данных и без ручной разметки. Большинство RL-фреймворков для языковых моделей работают…

Helios: 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100

11 марта 2026

Helios: 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100

Команда исследователей из Пекинского университета и ByteDance опубликовала Helios — авторегрессионную диффузионную трансформер-модель на 14 миллиардов параметров, которая генерирует видео со скоростью 19,5 кадров в секунду на одной видеокарте NVIDIA…

VBVR: открытый датасет на 2 миллиона видео для обучения видеомоделей рассуждению

26 февраля 2026
VBVR dataset

VBVR: открытый датасет на 2 миллиона видео для обучения видеомоделей рассуждению

Команда из более чем 50 исследователей со всего мира — из Berkeley, Stanford, CMU, Oxford и других университетов — опубликовала Very Big Video Reasoning (VBVR) — огромный набор данных для…

GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах

19 февраля 2026

GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах

Zhipu AI и Tsinghua University опубликовали техрепорт GLM-5 — на сегодня лучшей открытой языковой модели по бенчмаркам: первое место среди open-weight моделей на Artificial Analysis и топ-1 в кодинге и…

Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах

10 февраля 2026
Baichuan-M3

Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах

Команда исследователей из китайской компании Baichuan представила Baichuan-M3 — открытую медицинскую языковую модель, которая вместо традиционного режима «вопрос-ответ» ведет полноценный клинический диалог, активно собирая анамнез и принимая взвешенные медицинские решения.…

Claude Sonnet 4.5 побеждает на полноценном backend-бенчмарке, лучше всех справившись и с кодом, и с настройкой окружения

22 января 2026
abc-bench-pipeline-workflow

Claude Sonnet 4.5 побеждает на полноценном backend-бенчмарке, лучше всех справившись и с кодом, и с настройкой окружения

Команда исследователей из Fudan University и Shanghai Qiji Zhifeng Co. представила ABC-Bench — первый бенчмарк, который проверяет способность ИИ-агентов решать полноценные задачи backend-разработки: от изучения кода в репозитории до настройки…

Multiplex Thinking: семплинг 3 токенов вместо 1 повышает точность решения олимпиадных задач с 40% до 55%

22 января 2026
multiplex thinking

Multiplex Thinking: семплинг 3 токенов вместо 1 повышает точность решения олимпиадных задач с 40% до 55%

Исследователи из Университета Пенсильвании и Microsoft Research представили Multiplex Thinking — новый метод рассуждения для больших языковых моделей. Идея в том, чтобы на каждом шаге генерировать не один токен, а…

Yume1.5: открытая модель для создания интерактивных миров, управляемая с клавиатуры

5 января 2026
yume 1.5 model

Yume1.5: открытая модель для создания интерактивных миров, управляемая с клавиатуры

Исследователи из Shanghai AI Laboratory и Fudan University опубликовали Yume1.5 — модель для генерации интерактивных виртуальных миров, которыми можно управлять прямо с клавиатуры. В отличие от обычной генерации видео, здесь…

AI-модели на 13% хуже людей распознают сгенерированные ASMR-видео

18 декабря 2025
AI-generated video

AI-модели на 13% хуже людей распознают сгенерированные ASMR-видео

Исследователи из CUHK, NUS, University of Oxford и Video Rebirth представили Video Reality Test — первый бенчмарк, который проверяет, могут ли современные AI-модели создавать видео, неотличимые от настоящих. В отличие…

Wan-Move: открытая альтернатива Kling 1.5 Pro для контролируемой генерации движений на видео

13 декабря 2025
WAN_MOVE video editor

Wan-Move: открытая альтернатива Kling 1.5 Pro для контролируемой генерации движений на видео

Команда исследователей из Tongyi Lab (Alibaba Group), Университета Цинхуа и Гонконгского университета представила Wan-Move — новый подход к точному контролю движения в генеративных видео-моделях. В отличие от существующих методов, которые…