Deepdub Go и еще 5 нейросетей для дубляжа видео на 65 языков с копированием голоса диктора

ai for video dubbing - neural network based service

Израильский стартап Deepdub анонсировал Deepdub Go – сервис автоматического дубляжа видео на 65 языков при помощи нейросети. Целевая аудитория платформы – студии разработки игр, рекламные агентства, платформы онлайн-обучения и другие авторы контента, которые смогут значительно расширить доступность своих видео.

Сервис осуществляет сквозной процесс дубляжа, включающий автоматическую транскрипцию, перевод, генерацию голоса и микширование аудио. Особенностью Deepdub Go является точный учет контекста оригинальной аудиодорожки. Во-первых, при дубляже воспроизводятся эмоции говорящего. Во-вторых, при переводе языковая модель учитывает и корректно переводит шутки и идиомы.

Deepdub Go позволяет пользователям клонировать голоса реальных людей для дубляжа. Функционал продукта также включает возможность управления длительностью и количеством слов для автоматической синхронизации речи с движением губ.

Пользователи могут загрузить свои видео на платформу Deepdub Go, выбирать стиль видео и желаемые языки, нейросеть переведет видео, и через некоторое время обработанные видео будут доступны для скачивания. Deepdub Go также доступен через API для интеграции с существующими инструментами обработки аудио- и видеоконтента.

Ранее продукты Deepdub были доступны только профессиональным студиям в Голливуде. Фильмы, дублированные с использованием технологий Deepdub, уже транслируются на Hulu и Amazon Prime.

Еще 5 нейросетей для перевода видео

Deebdub Go доступен только по платной подписке, бесплатно не получится даже проверить качество работы нейросети на коротком отрезке видео. При этом есть несколько аналогов, которые можно протестировать бесплатно, как мы и поступили. Для примера использовалось известное видео с пьяным Жириновским, рассуждающим о войне в Ираке.

Оригинал видео:

Speeek.io

Сервис для дубляжа видео speeek.io перевел тестовое видео всего за 1 минуту, интерфейс простой и удобный в использовании. Перевод можно выполнить как клонируя голос говорящего, так и используя голоса спикеров: на выбор представлены 10 мужских и женских голосов.

Перевод голосом говорящего:

Качество перевода довольно высокое: нейросеть сбилась всего 1 раз на 14 секунде видео, интонацию не удалось сохранить, но сам перевод не пострадал. Перевод видео доступен с 7 языков: русский, английский, немецкий, испанский, итальянский, польский. Результат перевода видео доступен еще на 4 языках: китайский, голландский, хинди, арабский.

Rask.ai

Функция «VoiceClone» позволяет делать перевод голосов из оригинального видео на 28 языках. Кроме того, Rask может определять, кто говорит в видео, и использовать соответствующие голоса для каждого диктора. Сервис также предлагает возможность загрузки файлов SRT для улучшения точности перевода.

Да, Rask.ai копирует голос говорящего, по крайней мере, старается это делать: ораторские способности Жириновского два раза за минутное видео привели нейросеть в тупик, ей пришлось резко менять тембр голоса, и гладкого дубляжа в результате не вышло. С более трезвым спикером может получиться гораздо лучше.

Heygen

Нашумевшая нейросеть, которая перевела все мемы с русского языка на английский, французский и другие языке, не смогла перевести видео с Жириновским. Очередь ожидания затянулась на 3 дня, после чего появилась ошибка — Please maintain a stable distance from the camera. (Credits refunded). Оказалось, что сохранять одинаковое расстояние от говорящего до камеры в течение всего видео — обязательное условие для корректной работы нейросети. Подробностей о причинах возникновения ошибки выяснить не удалось, можно предположить, что это требуется для синхронизации движения рта и закадрового текста. Однако далеко не все видео удовлетворяют этому критерию. Посмотрите, как она перевела видео.

Посмотрите, как она перевела другой фрагмент этого видео. Качество поражает.

Maestra

Maestra переводит видео без функции копирования голоса, вместо этого пользователю предлагается выбрать один из 50 голосов, включая несколько акцентов английского: британский, американский, австралийский, индийский, и другие популярные языки. Сервис автоматически генерирует субтитры к загруженному видео в формате .srt.

Elevel Labs

ElevenLabs — нейросеть для автоматического дублирования и перевода голоса. Копировать голос она не умеет, однако позволяет локализовать видео или аудио на 29 языках всего за несколько секунд.

Wavel

Wavel AI позволяет дублировать любое видео на более чем 40 языках, предлагая более 250 мужских и женских голосов на выбор. Технология Wavel не обеспечивает реалистичное и живое звучание голосов, идеальную синхронизацию оригинала и перевода, в чем можно убедиться на примере.