Обработка видео и звука / Нейросети и глубокое обучение

LLaVA-OneVision-2-8B: мультимодальная модель анализирует сжатый видеопоток через кодек вместо нарезки кадров

28 мая 2026

LLaVA-OneVision-2-8B: мультимодальная модель анализирует сжатый видеопоток через кодек вместо нарезки кадров

Исследователи из Glint Lab, AIM for Health Lab и MVP Lab опубликовали LLaVA-OneVision-2 (LLaVA-OV-2) — мультимодальную модель нового поколения, которая переосмысливает то, как нейросеть «смотрит» видео. Вместо того чтобы нарезать видео…

Sound Effects: генерация звуков по описанию

3 июня 2024

Sound Effects: генерация звуков по описанию

Стартап ElevenLabs представил Sound Effects – платформу для генерации звуков и аудиосэмплов различного типа на основе текстового описания. Сервис позволяет создателям видео, игр и другого контента сократить время на самостоятельную…

Microsoft VASA-1: платформа для анимирования статичных изображений

21 апреля 2024

Microsoft VASA-1: платформа для анимирования статичных изображений

Microsoft представила платформу VASA-1, преобразующую изображение человека и аудиозапись с речью в видео с синхронизированными движениями губ и головы. Алгоритм работает в реальном времени со скоростью 40 кадров в секунду.…

Sora: диффузионная text-to-image модель OpenAI

18 февраля 2024

Sora: диффузионная text-to-image модель OpenAI

OpenAI представила Sora – диффузионную text-to-image модель, генерирующую видео длительностью 60 секунд. Ключевые преимущества модели OpenAI по сравнению с решениями конкурентов (включая Runway, Pika, Stability AI и Google) – высокое…

VideoPoet: языковая модель Google для генерации и редактирования видео

23 декабря 2023

VideoPoet: языковая модель Google для генерации и редактирования видео

Google представила VideoPoet – языковую модель для мультимодальной работы с видеоконтентом, способную преобразовывать текст и изображение в ролики, стилизовать существующие видео и генерировать аудиодорожки к ним без подсказок. VideoPoet обучает…

Google MusicFX: создание музыки по текстовому запросу

17 декабря 2023

Google MusicFX: создание музыки по текстовому запросу

Google запустил MusicFX – онлайн-сервис для генерации музыки по текстовому запросу. В продукте используется модель Google MusicLM, а каждый аудиофайл содержит незаметный для слушателя водяной знак, сгенерированный с помощью DeepMind…

Deepdub Go и еще 5 нейросетей для дубляжа видео на 65 языков с копированием голоса диктора

9 июля 2023

ai for video dubbing - neural network based service

Deepdub Go и еще 5 нейросетей для дубляжа видео на 65 языков с копированием голоса диктора

Израильский стартап Deepdub анонсировал Deepdub Go – сервис автоматического дубляжа видео на 65 языков при помощи нейросети. Целевая аудитория платформы – студии разработки игр, рекламные агентства, платформы онлайн-обучения и другие…

AudioPaLM: мультимодальная модель от Google для голосового перевода

29 июня 2023

AudioPaLM: мультимодальная модель от Google для голосового перевода

Google представила AudioPaLM — большую языковую модель для обработки и генерации речи, объединяющую две языковые модели от Google — PaLM-2 и AudioLM — в мультимодальную архитектуру. Модель умеет распознавать речь,…

AudioGPT: модель генерации звука из текста на основе трансформеров

5 мая 2023

AudioGPT: модель генерации звука из текста на основе трансформеров

AudioGPT — text-to-speech и text-to-audio модель от OpenAI, основанная на серии языковых моделей GPT. AudioGPT способна генерировать аудио-сэмплы с естественно звучащей речью, музыку и выполнять задачи классификации. Модель может оказать…

RunwayML: приложение для трансформации стиля видео

27 апреля 2023

RunwayML: приложение для трансформации стиля видео

Стартап Runway выпустил мобильное приложение, позволяющее пользователем использовать свою image-to-image модель Gen-1. Приложение RunwayML трансформирует стиль видео на основе текстового запроса, изображения-референса или пресета. Список доступных пресетов включает такие текстуры,…

Adobe добавила AI-инструменты в Premiere Pro и After Effects

13 апреля 2023

Adobe добавила AI-инструменты в Premiere Pro и After Effects

Adobe анонсировала новые версии Premiere Pro и After Effects, в которых добавлен AI-функционал, позволяющий ускорить редактирование видео. Среди новых инструментов – редактирование видео по автоматически сгенерированной транскрипции и автоподбор цветового…

Cтартап MyInterview упрощает найм сотрудников с использованием обработки естественного языка

9 мая 2022

Cтартап MyInterview упрощает найм сотрудников с использованием обработки естественного языка

Myinterview – израильский стартап, разрабатывающий инструменты машинного обучения для ускорения и упрощения процессов найма для компаний. Алгоритмы расшифровывают видеоинтервью кандидатов, оценивает их навыки и выставляет оценку. Основатели утверждают, что Myinterview…

Алгоритм UrbanDenoiser находит в 4 раза больше сигналов о землетрясениях

18 апреля 2022

Алгоритм UrbanDenoiser находит в 4 раза больше сигналов о землетрясениях

Исследователи Стэндфордского университета разработали алгоритм UrbanDenoiser для удаления фоновых шумов из данных, поступающих с датчиков сейсмической активности. UrbanDenoiser позволяет регистрировать в четыре раза больше сигналов землетрясений. Движение транспорта и работа…

Датасеты для генерации и анализа музыки

27 февраля 2022

Датасеты для генерации и анализа музыки

В статье приводится обзор датасетов с музыкальными произведениями. Датасеты разработаны для обучения моделей генерации, распознавания и анализа музыки. NSynth Крупнейший датасет, состоящий из 305 979 музыкальных нот, включая высоту звука,…

Deepdub: дубляж фильмов с помощью нейросети

16 февраля 2022

Deepdub: дубляж фильмов с помощью нейросети

Израильский стартап Deepdub разработал алгоритм дубляжа фильмов с использованием синтетических голосов генерируемых нейросетью. Инструменты компании позволяют скопировать оригинальный голос актера и сократить расходы на озвучивание. Update: Deepdub Go запустил ИИ…

DeepBrain показала аватары для коммуникации с клиентами

8 января 2022

DeepBrain показала аватары для коммуникации с клиентами

На выставке CES 2022 компания DeepBrain представила фотореалистичных аватаров, которые предлагается использовать компаниям для коммуникации с клиентами. Аватары сгенерированы на основе нескольких сотен часов видео реальных людей. Аватары DeepBrain способны…