Sora: диффузионная text-to-image модель OpenAI

18 февраля 2024
openai sora

Sora: диффузионная text-to-image модель OpenAI

OpenAI представила Sora – диффузионную text-to-image модель, генерирующую видео длительностью 60 секунд. Ключевые преимущества модели OpenAI по сравнению с решениями конкурентов (включая Runway, Pika, Stability AI и Google) – высокое…

VideoPoet: языковая модель Google для генерации и редактирования видео

23 декабря 2023
videopoet

VideoPoet: языковая модель Google для генерации и редактирования видео

Google представила VideoPoet – языковую модель для мультимодальной работы с видеоконтентом, способную преобразовывать текст и изображение в ролики, стилизовать существующие видео и генерировать аудиодорожки к ним без подсказок. VideoPoet обучает…

Google MusicFX: создание музыки по текстовому запросу

17 декабря 2023

Google MusicFX: создание музыки по текстовому запросу

Google запустил MusicFX – онлайн-сервис для генерации музыки по текстовому запросу. В продукте используется модель Google MusicLM, а каждый аудиофайл содержит незаметный для слушателя водяной знак, сгенерированный с помощью DeepMind…

Deepdub Go и еще 5 нейросетей для дубляжа видео на 65 языков с копированием голоса диктора

9 июля 2023
ai for video dubbing - neural network based service

Deepdub Go и еще 5 нейросетей для дубляжа видео на 65 языков с копированием голоса диктора

Израильский стартап Deepdub анонсировал Deepdub Go – сервис автоматического дубляжа видео на 65 языков при помощи нейросети. Целевая аудитория платформы – студии разработки игр, рекламные агентства, платформы онлайн-обучения и другие…

AudioPaLM: мультимодальная модель от Google для голосового перевода

29 июня 2023
audiopalm google

AudioPaLM: мультимодальная модель от Google для голосового перевода

Google представила AudioPaLM — большую языковую модель для обработки и генерации речи, объединяющую две языковые модели от Google — PaLM-2 и AudioLM — в мультимодальную архитектуру. Модель умеет распознавать речь,…

AudioGPT: модель генерации звука из текста на основе трансформеров

5 мая 2023
audiogpt

AudioGPT: модель генерации звука из текста на основе трансформеров

AudioGPT — text-to-speech и text-to-audio модель от OpenAI, основанная на серии языковых моделей GPT. AudioGPT способна генерировать аудио-сэмплы с естественно звучащей речью, музыку и выполнять задачи классификации. Модель может оказать…

RunwayML: приложение для трансформации стиля видео

27 апреля 2023

RunwayML: приложение для трансформации стиля видео

Стартап Runway выпустил мобильное приложение, позволяющее пользователем использовать свою image-to-image модель Gen-1. Приложение RunwayML трансформирует стиль видео на основе текстового запроса, изображения-референса или пресета. Список доступных пресетов включает такие текстуры,…

Adobe добавила AI-инструменты в Premiere Pro и After Effects

13 апреля 2023

Adobe добавила AI-инструменты в Premiere Pro и After Effects

Adobe анонсировала новые версии Premiere Pro и After Effects, в которых добавлен AI-функционал, позволяющий ускорить редактирование видео. Среди новых инструментов – редактирование видео по автоматически сгенерированной транскрипции и автоподбор цветового…

Cтартап MyInterview упрощает найм сотрудников с использованием обработки естественного языка

9 мая 2022

Cтартап MyInterview упрощает найм сотрудников с использованием обработки естественного языка

Myinterview – израильский стартап, разрабатывающий инструменты машинного обучения для ускорения и упрощения процессов найма для компаний. Алгоритмы расшифровывают видеоинтервью кандидатов, оценивает их навыки и выставляет оценку. Основатели утверждают, что Myinterview…

Алгоритм UrbanDenoiser находит в 4 раза больше сигналов о землетрясениях

18 апреля 2022

Алгоритм UrbanDenoiser находит в 4 раза больше сигналов о землетрясениях

Исследователи Стэндфордского университета разработали алгоритм UrbanDenoiser для удаления фоновых шумов из данных, поступающих с датчиков сейсмической активности. UrbanDenoiser позволяет регистрировать в четыре раза больше сигналов землетрясений. Движение транспорта и работа…

Датасеты для генерации и анализа музыки

27 февраля 2022

Датасеты для генерации и анализа музыки

В статье приводится обзор датасетов с музыкальными произведениями. Датасеты разработаны для обучения моделей генерации, распознавания и анализа музыки. NSynth Крупнейший датасет, состоящий из 305 979 музыкальных нот, включая высоту звука,…

Deepdub: дубляж фильмов с помощью нейросети

16 февраля 2022
deepdub

Deepdub: дубляж фильмов с помощью нейросети

Израильский стартап Deepdub разработал алгоритм дубляжа фильмов с использованием синтетических голосов генерируемых нейросетью. Инструменты компании позволяют скопировать оригинальный голос актера и сократить расходы на озвучивание. Update: Deepdub Go запустил ИИ…

DeepBrain показала аватары для коммуникации с клиентами

8 января 2022

DeepBrain показала аватары для коммуникации с клиентами

На выставке CES 2022 компания DeepBrain представила фотореалистичных аватаров, которые предлагается использовать компаниям для коммуникации с клиентами. Аватары сгенерированы на основе нескольких сотен часов видео реальных людей. Аватары DeepBrain способны…

FaceHeart: измерение медицинских показателей по видеозаписи лица

7 января 2022

FaceHeart: измерение медицинских показателей по видеозаписи лица

Корпорация FaceHeart объявила о запуске технологии, способной определять 6 медицинских показателей, включая уровень кислорода в крови и индекс стресса, с помощью камеры смартфона. В FaceHeart утверждают, что точность их системы…

Google внедряет нейросеть MUM в поиск

13 октября 2021

Google внедряет нейросеть MUM в поиск

Google анонсировала новые функции своей поисковой системы на основе нейросети MUM, которые станут доступными в ближайшее время. В частности, изменится страница с результатами поиска и появится возможность объединять текстовые и…

SoundStream: нейронный аудиокодек Google

21 августа 2021

SoundStream: нейронный аудиокодек Google

Google представила SoundStream — аудиокодек на базе искусственного интеллекта, который может использоваться в режиме реального времени на смартфонах. В отличие от Lyra, предыдущего нейрокодека Google, SoundStream работает с аудио более…

Libri-light: датасет для unsupervised распознавания речи от FAIR

3 января 2020

Libri-light: датасет для unsupervised распознавания речи от FAIR

FAIR опубликовали самый крупный датасет для распознавания речи. Libri-light содержит 60 тысяч часов неразмеченной речи на английском языке.  Данные для Libri-light собирали из общедоступных аудиофайлов и адаптировали для задачи автоматического…

nnAudio: инструмент для генерации спектрограммы во время обучения модели

31 декабря 2019

nnAudio: инструмент для генерации спектрограммы во время обучения модели

nnAudio — это опенсорс инструмент на Pytorch для обработки аудиозаписей с помощью однослойной сверточной сети. С помощью nnAudio можно генерировать спектрограммы на ходу во время обучения нейросети. Библиотека построена на…

Нейросеть разделяет аудиозапись на вокал и инструментальную часть

9 ноября 2019

Нейросеть разделяет аудиозапись на вокал и инструментальную часть

Deezer опубликовали библиотеку на Python Spleeter. Spleeter состоит из предобученных нейросетевых моделей, которые разделяют музыкальную запись на 2, 4 или 5 дорожек. Модели в библиотеке реализованы на TensorFlow. Deezer —…

DVD-GAN: новый state-of-the-art в генерации видео

30 августа 2019

DVD-GAN: новый state-of-the-art в генерации видео

DVD-GAN — это нейросеть для генерации видео, которая была разработана исследователями из DeepMind. По результатам экспериментов, DVD-GAN лучше предыдущих решений справляется с задачами генерации и предсказания видео. Модели тестировались на…

Нейросеть анализирует видео с камер во время операций

29 августа 2019

Нейросеть анализирует видео с камер во время операций

Kaliber Labs разрабатывают нейросеть, которая интерпретирует видео с камер внутри пациента во время операций. Модель определяет оперируемую область и выдает рекомендации, которые выводятся на монитор в операционной. Kaliber Labs —…