Генеративная нейросеть / Нейросети и глубокое обучение

DreamX-World 1.0: открытая модель генерации мира с контролем камеры, текстовым управлением и запоминанием локаций

17 июня 2026

DreamX-World 1.0: открытая модель генерации мира с контролем камеры, текстовым управлением и запоминанием локаций

Команда AMAP-ML опубликовала DreamX-World 1.0 — интерактивную генеративную модель мира, которая превращает текст или изображение в управляемое видео с точным контролем камеры, памятью о ранее посещённых сценах и поддержкой событий…

LongLive-2.0: NVIDIA научила модель генерировать длинное видео в реальном времени с квантованием NVFP4

20 мая 2026

LongLive-2.0: NVIDIA научила модель генерировать длинное видео в реальном времени с квантованием NVFP4

Исследователи из NVIDIA опубликовали LongLive-2.0 — инфраструктуру для обучения и запуска моделей генерации длинного видео с использованием квантования до 4-битной точности NVFP4. Квантование — это сжатие весов модели за счёт…

OpenAI Codex: полный гайд по установке и начале работы на 2026 год, плюсы и минусы агента

18 мая 2026

OpenAI Codex: полный гайд по установке и начале работы на 2026 год, плюсы и минусы агента

За последние два года AI-инструменты для разработки успели пройти путь от «умного автодополнения» до полноценных агентных систем. Если ранние Copilot-подобные решения в основном помогали дописывать код строчка за строчкой, то…

Helios: 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100

11 марта 2026

Helios: 14B-модель генерирует видео длиной больше 60 секунд со скоростью 19,5 FPS на одной H100

Команда исследователей из Пекинского университета и ByteDance опубликовала Helios — авторегрессионную диффузионную трансформер-модель на 14 миллиардов параметров, которая генерирует видео со скоростью 19,5 кадров в секунду на одной видеокарте NVIDIA…

Yume1.5: открытая модель для создания интерактивных миров, управляемая с клавиатуры

5 января 2026

Yume1.5: открытая модель для создания интерактивных миров, управляемая с клавиатуры

Исследователи из Shanghai AI Laboratory и Fudan University опубликовали Yume1.5 — модель для генерации интерактивных виртуальных миров, которыми можно управлять прямо с клавиатуры. В отличие от обычной генерации видео, здесь…

AI-модели на 13% хуже людей распознают сгенерированные ASMR-видео

18 декабря 2025

AI-модели на 13% хуже людей распознают сгенерированные ASMR-видео

Исследователи из CUHK, NUS, University of Oxford и Video Rebirth представили Video Reality Test — первый бенчмарк, который проверяет, могут ли современные AI-модели создавать видео, неотличимые от настоящих. В отличие…

Какой ИИ способен сыграть злодея: сравнение алгоритмов выравнивания 17 моделей

13 ноября 2025

Какой ИИ способен сыграть злодея: сравнение алгоритмов выравнивания 17 моделей

Исследователи из Tencent Multimodal Department и Sun Yat-Sen University опубликовали работу о том, как большие языковые модели справляются с ролевыми играми. Оказалось, что ИИ-модели справляются с ролевыми играми посредственно: даже…

DTM: новая аппаратная архитектура снижает энергопотребление до 10000 раз по сравнению с GPU

1 ноября 2025

DTM: новая аппаратная архитектура снижает энергопотребление до 10000 раз по сравнению с GPU

Исследователи из Extropic Corporation представили эффективную аппаратную архитектуру для вероятностных вычислений, основанную на Denoising Thermodynamic Models (DTM). Анализ показывает, что устройства на базе этой архитектуры могут достичь паритета производительности с…

Show-o2: открытая мультимодальная 7B модель обходит 14B-модели на бенчмарках, используя в разы меньше данных для обучения

11 июля 2025

Show-o2: открытая мультимодальная 7B модель обходит 14B-модели на бенчмарках, используя в разы меньше данных для обучения

Исследователи из Show Lab Национального университета Сингапура и ByteDance представили Show-o2 — второе поколение мультимодальной модели, которая демонстрирует превосходные результаты в задачах понимания и генерации изображений и видео. Show-o2 использует…

R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

27 февраля 2025

R1-Onevision: открытая мультимодальная 7B модель обходит GPT4o в рассуждениях и математике

Исследователи из Чжэцзянского университета представили R1-Onevision, открытую мультимодальную модель рассуждений с 7 миллиардами параметров. R1-Onevision решает сложные математические, научные и инженерные задачи с показателями производительности, превосходящими GPT-4o в математике и…

Step-Video-T2V: генератор видео из текста с коэффициентом сжатия 16x

20 февраля 2025

Step-Video-T2V: генератор видео из текста с коэффициентом сжатия 16x

Исследователи из Stepfun AI представили Step-Video-T2V, text-to-video модель с 30 миллиардами параметров, способную генерировать видео длиной до 204 кадров, с разрешением 544×992. Модель принимает промпты на китайском и английском языках.…

Adobe Firefly: первое коммерчески безопасная модель для генерации видео

13 февраля 2025

Adobe Firefly: первое коммерчески безопасная модель для генерации видео

Adobe выпустила модель генерации видео Firefly в открытый доступ. Firefly Video была разработана специально для коммерческого использования. Firefly решает ключевые проблемы бизнеса, связанные с авторскими правами и юридической безопасностью сгенерированного…

На CES 2025 Nvidia представила серию GPU RTX 50 и микросервисы NIM для локального запуска ИИ-пайплайнов

7 января 2025

На CES 2025 Nvidia представила серию GPU RTX 50 и микросервисы NIM для локального запуска ИИ-пайплайнов

Nvidia анонсировала крупное обновление на выставке CES 2025, включающее новые графические процессоры RTX 50 и микросервисами NIM для локального развертывания крупных моделей от таких провайдеров, как Black Forest Labs, Meta…

ArtAug: мультиагентный открытый фреймворк для улучшения генерации изображений

18 декабря 2024

ArtAug: мультиагентный открытый фреймворк для улучшения генерации изображений

Исследователи Alibaba Group представили фреймворк ArtAug для улучшения качества генерации изображений из текста без дополнительных вычислительных затрат на этапе инференса, используя взаимодействие между генеративными и понимающими (understanding) моделями. Архитектура ArtAug…

Sora Turbo: состоялся публичный релиз новой модели OpenAI для создания видео

10 декабря 2024

SORA AI video generation model goes public

Sora Turbo: состоялся публичный релиз новой модели OpenAI для создания видео

OpenAI объявила о публичном релизе Sora Turbo, значительно улучшенной версии своей гиперреалистичной text-to-video, image-to-video и video-to-video модели. Презентация прошла на конференции «12 дней OpenAI», спустя почти 10 месяцев после первой…

Vinteo AI — нейросеть, которая создает реалистичные визуализации товаров за 2 минуты

7 декабря 2024

Vinteo AI - нейросеть, которая создает реалистичные визуализации товаров за пару минут

Vinteo AI — нейросеть, которая создает реалистичные визуализации товаров за 2 минуты

Vinteo AI — SAAS на основе ИИ специализирующуюся на разработке решений в области искусственного интеллекта для визуальной презентации товаров. Нейросеть обеспечивает оперативное и экономически рациональное создание фотореалистичных изображений товаров в…

Создание игр на основе искусственного интеллекта: новый бесплатный курс от DeepLearning.AI

2 декабря 2024

deeplearning ai game development course free

Создание игр на основе искусственного интеллекта: новый бесплатный курс от DeepLearning.AI

DeepLearning.AI представил образовательный курс Building an AI-Powered Game. Программа курса фокусируется на практическом применении языковых моделей в разработке игр и предназначена для разработчиков разного уровня подготовки. Длительность курса — 1…

FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

16 ноября 2024

FinRobot: открытый мультиагентный фреймворк для анализа рынка акций

Исследователи AI4Finance Foundation представили открытую модель FinRobot — фреймворк AI-агентов, специально разработанный для анализа рынка акций. FinRobot объединяет количественный и качественный анализ через трехуровневый подход Chain of Thought (CoT). Модель…