Open source / Нейросети и глубокое обучение

DreamX-World 1.0: открытая модель генерации мира с контролем камеры, текстовым управлением и запоминанием локаций

17 июня 2026

DreamX-World 1.0: открытая модель генерации мира с контролем камеры, текстовым управлением и запоминанием локаций

Команда AMAP-ML опубликовала DreamX-World 1.0 — интерактивную генеративную модель мира, которая превращает текст или изображение в управляемое видео с точным контролем камеры, памятью о ранее посещённых сценах и поддержкой событий…

VibeThinker: 3B-модель рассуждает и кодит на уровне флагманских моделей

16 июня 2026

https://neurohive.io/ru/ii-v-marketinge/pochemu-socseti-blokirujut-67-multiakkaunterov-v-pervye-3-dnya-analiz-500-otchetov/

VibeThinker: 3B-модель рассуждает и кодит на уровне флагманских моделей

Команда Sina Weibo AI опубликовала VibeThinker-3B — компактную языковую модель всего с 3 миллиардами параметров, которая на задачах верифицируемых рассуждений (математика, программирование, STEM) вплотную приближается к результатам флагманских моделей DeepSeek…

ESM Cambrian: модель для предсказания и дизайна белков превзошла AlphaFold3 от Google и построила крупнейший атлас белкового мира

4 июня 2026

ESM Cambrian: модель для предсказания и дизайна белков превзошла AlphaFold3 от Google и построила крупнейший атлас белкового мира

Команда исследователей из Biohub опубликовала ESM Cambrian (ESMC) — языковую модель для предсказания и дизайна белков, которая обошла AlphaFold3 от Google по точности предсказания структур, спроектировала молекулы, которые крепко связываются…

LLaVA-OneVision-2-8B: мультимодальная модель анализирует сжатый видеопоток через кодек вместо нарезки кадров

28 мая 2026

LLaVA-OneVision-2-8B: мультимодальная модель анализирует сжатый видеопоток через кодек вместо нарезки кадров

Исследователи из Glint Lab, AIM for Health Lab и MVP Lab опубликовали LLaVA-OneVision-2 (LLaVA-OV-2) — мультимодальную модель нового поколения, которая переосмысливает то, как нейросеть «смотрит» видео. Вместо того чтобы нарезать видео…

SenseNova-U1: мультимодальная архитектура NEO-unify работает напрямую с пикселями без VAE

14 мая 2026

SenseNova-U1: мультимодальная архитектура NEO-unify работает напрямую с пикселями без VAE

Команда SenseNova представила новую мультимодальную архитектуру SenseNova-U1, которая объединяет понимание изображений, генерацию и редактирование внутри единого трансформера без отдельного визуального энкодера и вариационного автокодировщика. Такой подход убирает необходимость постоянно переводить…

OpenSeeker-v2: лучший в своем классе Deep Research агент, созданный академической командой всего на 10600 примерах

7 мая 2026

OpenSeeker-v2: лучший в своем классе Deep Research агент, созданный академической командой всего на 10600 примерах

Исследователи из Шанхайского университета Цзяо Тун доказали, что для создания лучшего в своём классе deep research агента не нужны сотни миллиардов токенов предобучения и дорогостоящее обучение с подкреплением. Достаточно 10…

OpenGame: ИИ-агент создает браузерные 2D-игры с нуля по текстовому описанию

22 апреля 2026

OpenGame: ИИ-агент создает браузерные 2D-игры с нуля по текстовому описанию

Команда исследователей из CUHK MMLab опубликовала OpenGame — первый агентный фреймворк для создания браузерных 2D-игр по текстовому описания. Проект полностью открытый: код фреймворка, веса модели GameCoder-27B и датасеты доступны на…

ClawGUI: первый открытый фреймворк полного цикла для GUI-агентов от обучения до реального устройства

15 апреля 2026

ClawGUI: первый открытый фреймворк полного цикла для GUI-агентов от обучения до реального устройства

Исследователи из Чжэцзянского университета опубликовали ClawGUI — полностью открытый фреймворк для разработки GUI-агентов, которые управляют приложениями через визуальный интерфейс, как это делает человек: касаниями, свайпами и вводом текста. На практике…

ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач

13 апреля 2026

ClawBench: лучший ИИ-агент смог успешно завершить только 33% реальных повседневных задач

ClawBench — бенчмарк, который проверяет, могут ли ИИ-агенты выполнять настоящие повседневные задачи в интернете: забронировать рейс, откликнуться на вакансию, оформить заказ. Результаты показали, что даже сильнейшая модель — Claude Sonnet…

InCoder-32B-Thinking: открытая модель генерации кода для микроконтроллеров, оптимизации GPU-ядер и RTL-проектирования

7 апреля 2026

InCoder-32B-Thinking: открытая модель генерации кода для микроконтроллеров, оптимизации GPU-ядер и RTL-проектирования

Команда исследователей из Пекинского авиационного института, Шанхайского транспортного университета, Университета Манчестера и компании IQuest Research опубликовала InCoder-32B-Thinking — языковую модель с расширенной цепочкой рассуждений (chain-of-thought reasoning) для задач разработки кода…

Trinity-Large-Thinking 400B: масшабная открытая reasoning-модель для агентных задач стоит в 28 раз дешевле Claude Opus-4.6

3 апреля 2026

Trinity-Large-Thinking 400B: масшабная открытая reasoning-модель для агентных задач стоит в 28 раз дешевле Claude Opus-4.6

Компания Arcee AI выложила в открытый доступ Trinity-Large-Thinking — модель с рассуждениями для сложных многоходовых агентных задач. На PinchBench — главном бенчмарке для агентных задач — она занимает второе место…

PixelSmile: открытая модель для редактирования эмоций на изображениях с плавным контролем интенсивности эмоций

31 марта 2026

PixelSmile: открытая модель для редактирования эмоций на изображениях с плавным контролем интенсивности эмоций

Исследователи из Fudan University и StepFun опубликовали PixelSmile — диффузионную модель для точного редактирования мимики на портретах и аниме-изображениях. Вместо обучения на дискретных метках, например, «страх/не страх», модель использует непрерывные…

RealRestorer: открытая модель улучшения качества фото обогнала Nano Banana Pro на бенчмарке с реальными снимками

30 марта 2026

Realresorer image restoration open model 2

RealRestorer: открытая модель улучшения качества фото обогнала Nano Banana Pro на бенчмарке с реальными снимками

Команда исследователей из StepFun, Southern University of Science and Technology и Китайской академии наук опубликовала RealRestorer — открытую модель улучшения качества фотографий, которая умеет убирать размытость, шум, дождь, засветку от…

MinerU-Diffusion: новый подход к OCR через диффузионное декодирование ускоряет парсинг PDF в 3 раза без потери точности

27 марта 2026

MinerU-Diffusion: новый подход к OCR через диффузионное декодирование ускоряет парсинг PDF в 3 раза без потери точности

Команда из Shanghai Artificial Intelligence Laboratory и Пекинского университета опубликовала MinerU-Diffusion — фреймворк для распознавания текста в документах (OCR), который отказывается от классической авторегрессивной генерации в пользу диффузионного декодирования. Проект…

daVinci-MagiHuman: открытая 15B-модель генерирует 5-секундное видео с липсинком за 2 секунды на одном H100

24 марта 2026

daVinci-MagiHuman: открытая 15B-модель генерирует 5-секундное видео с липсинком за 2 секунды на одном H100

Команды SII-GAIR и Sand.ai опубликовали daVinci-MagiHuman — открытую мультимодальную 15B-модель на основе однопоточного трансформера, которая одновременно генерирует видео с липсинком и синхронное аудио и создает 5-секундный клип в 256p за…

OpenClaw: лобстер, который захватил мир. ИИ-агент работает локально и управляется через мессенджеры

18 марта 2026

OpenClaw: лобстер, который захватил мир. ИИ-агент работает локально и управляется через мессенджеры

OpenClaw — открытый ИИ-агент, созданный австрийским разработчиком Питером Штайнбергером в ноябре 2025 года. ИИ-агент — это программная оболочка вокруг языковой модели, которая не просто генерирует текст в ответ на запрос,…

OpenClaw-RL: ИИ-агент учится на собственных ошибках через реакции пользователя и среды, обновляя веса на ходу

17 марта 2026

OpenClaw-RL: ИИ-агент учится на собственных ошибках через реакции пользователя и среды, обновляя веса на ходу

Исследователи из Princeton University предложили фреймворк OpenClaw-RL, позволяющий ИИ-агенту улучшаться в режиме реального времени — без отдельного этапа сбора данных и без ручной разметки. Большинство RL-фреймворков для языковых моделей работают…

Helios: 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100

11 марта 2026

Helios: 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100

Команда исследователей из Пекинского университета и ByteDance опубликовала Helios — авторегрессионную диффузионную трансформер-модель на 14 миллиардов параметров, которая генерирует видео со скоростью 19,5 кадров в секунду на одной видеокарте NVIDIA…

VBVR: открытый датасет на 2 миллиона видео для обучения видеомоделей рассуждению

26 февраля 2026

VBVR: открытый датасет на 2 миллиона видео для обучения видеомоделей рассуждению

Команда из более чем 50 исследователей со всего мира — из CMU, Oxford и других университетов — опубликовала Very Big Video Reasoning (VBVR) — огромный набор данных для обучения видеомоделей…

GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах

19 февраля 2026

GLM-5: топ-1 открытая модель для генерации кода и текста, конкурирующая с Claude и GPT на агентных задачах

Zhipu AI и Tsinghua University опубликовали техрепорт GLM-5 — на сегодня лучшей открытой языковой модели по бенчмаркам: первое место среди open-weight моделей на Artificial Analysis и топ-1 в кодинге и…

Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах

10 февраля 2026

Baichuan-M3: открытая медицинская модель, которая ведёт приём как настоящий врач и обходит GPT-5.2 на тестах

Команда исследователей из китайской компании Baichuan представила Baichuan-M3 — открытую медицинскую языковую модель, которая вместо традиционного режима «вопрос-ответ» ведет полноценный клинический диалог, активно собирая анамнез и принимая взвешенные медицинские решения.…