Deepdub Go: автоматический дубляж видео на 65 языков с помощью нейросети

9 июля 2023
ai for video dubbing - neural network based service

Deepdub Go: автоматический дубляж видео на 65 языков с помощью нейросети

Израильский стартап Deepdub анонсировал Deepdub Go – сервис автоматического дубляжа видео на 65 языков при помощи нейросети. Целевая аудитория платформы – студии разработки игр, рекламные агентства, платформы онлайн-обучения и другие…

AudioPaLM: мультимодальная модель от Google для голосового перевода

29 июня 2023
audiopalm google

AudioPaLM: мультимодальная модель от Google для голосового перевода

Google представила AudioPaLM — большую языковую модель для обработки и генерации речи, объединяющую две языковые модели от Google — PaLM-2 и AudioLM — в мультимодальную архитектуру. Модель умеет распознавать речь,…

AudioGPT: модель генерации звука из текста на основе трансформеров

5 мая 2023
audiogpt

AudioGPT: модель генерации звука из текста на основе трансформеров

AudioGPT — text-to-speech и text-to-audio модель от OpenAI, основанная на серии языковых моделей GPT. AudioGPT способна генерировать аудио-сэмплы с естественно звучащей речью, музыку и выполнять задачи классификации. Модель может оказать…

RunwayML: приложение для трансформации стиля видео

27 апреля 2023

RunwayML: приложение для трансформации стиля видео

Стартап Runway выпустил мобильное приложение, позволяющее пользователем использовать свою image-to-image модель Gen-1. Приложение RunwayML трансформирует стиль видео на основе текстового запроса, изображения-референса или пресета. Список доступных пресетов включает такие текстуры,…

Adobe добавила AI-инструменты в Premiere Pro и After Effects

13 апреля 2023

Adobe добавила AI-инструменты в Premiere Pro и After Effects

Adobe анонсировала новые версии Premiere Pro и After Effects, в которых добавлен AI-функционал, позволяющий ускорить редактирование видео. Среди новых инструментов – редактирование видео по автоматически сгенерированной транскрипции и автоподбор цветового…

Cтартап MyInterview упрощает найм сотрудников с использованием обработки естественного языка

9 мая 2022

Cтартап MyInterview упрощает найм сотрудников с использованием обработки естественного языка

Myinterview – израильский стартап, разрабатывающий инструменты машинного обучения для ускорения и упрощения процессов найма для компаний. Алгоритмы расшифровывают видеоинтервью кандидатов, оценивает их навыки и выставляет оценку. Основатели утверждают, что Myinterview…

Алгоритм UrbanDenoiser находит в 4 раза больше сигналов о землетрясениях

18 апреля 2022

Алгоритм UrbanDenoiser находит в 4 раза больше сигналов о землетрясениях

Исследователи Стэндфордского университета разработали алгоритм UrbanDenoiser для удаления фоновых шумов из данных, поступающих с датчиков сейсмической активности. UrbanDenoiser позволяет регистрировать в четыре раза больше сигналов землетрясений. Движение транспорта и работа…

Датасеты для генерации и анализа музыки

27 февраля 2022

Датасеты для генерации и анализа музыки

В статье приводится обзор датасетов с музыкальными произведениями. Датасеты разработаны для обучения моделей генерации, распознавания и анализа музыки. NSynth Крупнейший датасет, состоящий из 305 979 музыкальных нот, включая высоту звука,…

Deepdub: дубляж фильмов с помощью нейросети

16 февраля 2022

Deepdub: дубляж фильмов с помощью нейросети

Израильский стартап Deepdub разработал алгоритм дубляжа фильмов с использованием синтетических голосов генерируемых нейросетью. Инструменты компании позволяют скопировать оригинальный голос актера и сократить расходы на озвучивание. В среднем на пять минут…

DeepBrain показала аватары для коммуникации с клиентами

8 января 2022

DeepBrain показала аватары для коммуникации с клиентами

На выставке CES 2022 компания DeepBrain представила фотореалистичных аватаров, которые предлагается использовать компаниям для коммуникации с клиентами. Аватары сгенерированы на основе нескольких сотен часов видео реальных людей. Аватары DeepBrain способны…

FaceHeart: измерение медицинских показателей по видеозаписи лица

7 января 2022

FaceHeart: измерение медицинских показателей по видеозаписи лица

Корпорация FaceHeart объявила о запуске технологии, способной определять 6 медицинских показателей, включая уровень кислорода в крови и индекс стресса, с помощью камеры смартфона. В FaceHeart утверждают, что точность их системы…

Google внедряет нейросеть MUM в поиск

13 октября 2021

Google внедряет нейросеть MUM в поиск

Google анонсировала новые функции своей поисковой системы на основе нейросети MUM, которые станут доступными в ближайшее время. В частности, изменится страница с результатами поиска и появится возможность объединять текстовые и…

SoundStream: нейронный аудиокодек Google

21 августа 2021

SoundStream: нейронный аудиокодек Google

Google представила SoundStream — аудиокодек на базе искусственного интеллекта, который может использоваться в режиме реального времени на смартфонах. В отличие от Lyra, предыдущего нейрокодека Google, SoundStream работает с аудио более…

Libri-light: датасет для unsupervised распознавания речи от FAIR

3 января 2020

Libri-light: датасет для unsupervised распознавания речи от FAIR

FAIR опубликовали самый крупный датасет для распознавания речи. Libri-light содержит 60 тысяч часов неразмеченной речи на английском языке.  Данные для Libri-light собирали из общедоступных аудиофайлов и адаптировали для задачи автоматического…

nnAudio: инструмент для генерации спектрограммы во время обучения модели

31 декабря 2019

nnAudio: инструмент для генерации спектрограммы во время обучения модели

nnAudio — это опенсорс инструмент на Pytorch для обработки аудиозаписей с помощью однослойной сверточной сети. С помощью nnAudio можно генерировать спектрограммы на ходу во время обучения нейросети. Библиотека построена на…

Нейросеть разделяет аудиозапись на вокал и инструментальную часть

9 ноября 2019

Нейросеть разделяет аудиозапись на вокал и инструментальную часть

Deezer опубликовали библиотеку на Python Spleeter. Spleeter состоит из предобученных нейросетевых моделей, которые разделяют музыкальную запись на 2, 4 или 5 дорожек. Модели в библиотеке реализованы на TensorFlow. Deezer —…

DVD-GAN: новый state-of-the-art в генерации видео

30 августа 2019

DVD-GAN: новый state-of-the-art в генерации видео

DVD-GAN — это нейросеть для генерации видео, которая была разработана исследователями из DeepMind. По результатам экспериментов, DVD-GAN лучше предыдущих решений справляется с задачами генерации и предсказания видео. Модели тестировались на…

Нейросеть анализирует видео с камер во время операций

29 августа 2019

Нейросеть анализирует видео с камер во время операций

Kaliber Labs разрабатывают нейросеть, которая интерпретирует видео с камер внутри пациента во время операций. Модель определяет оперируемую область и выдает рекомендации, которые выводятся на монитор в операционной. Kaliber Labs —…

VideoGorillas используют нейросети для преобразования видео в 4К

26 августа 2019

VideoGorillas используют нейросети для преобразования видео в 4К

Разработчики в VideoGorillas обучили нейросеть улучшать разрешение видео. Нейросеть конвертирует видео из 480p разрешения в 4K. Модель используется для предсказания недостающих пикселей.  За последние несколько лет стандарты видеосъемки значительно возросли.…

Нейросеть заполняет отсутствующие фрагменты в видеозаписи

14 августа 2019

Нейросеть заполняет отсутствующие фрагменты в видеозаписи

Исследователи использовали предсказание оптического потока для заполнения отсутствующих фрагментов в видеозаписи. Метод был протестирован на задачах DAVIS и YouTubeVOS. Модель получила state-of-the-art результаты по скорости обучения и качеству предсказаний. Оптический…

Обновления: PyTorch 1.2, torchtext 0.4, torchaudio 0.3 и torchvision 0.4

14 августа 2019

Обновления: PyTorch 1.2, torchtext 0.4, torchaudio 0.3 и torchvision 0.4

Вышли обновления для библиотеки PyTorch и дополнительных библиотек для обработки текста, аудио и изображений. В PyTorch добавился модуль с трансформером, в torchaudio — новые способы трансформации и стандартизации аудиоданных, в…