Deepdub Go: автоматический дубляж видео на 65 языков с помощью нейросети

9 июля 2023
ai for video dubbing - neural network based service

Deepdub Go: автоматический дубляж видео на 65 языков с помощью нейросети

Израильский стартап Deepdub анонсировал Deepdub Go – сервис автоматического дубляжа видео на 65 языков при помощи нейросети. Целевая аудитория платформы – студии разработки игр, рекламные агентства, платформы онлайн-обучения и другие…

AudioPaLM: мультимодальная модель от Google для голосового перевода

29 июня 2023
audiopalm google

AudioPaLM: мультимодальная модель от Google для голосового перевода

Google представила AudioPaLM — большую языковую модель для обработки и генерации речи, объединяющую две языковые модели от Google — PaLM-2 и AudioLM — в мультимодальную архитектуру. Модель умеет распознавать речь,…

Adobe добавила AI-инструменты в Premiere Pro и After Effects

13 апреля 2023

Adobe добавила AI-инструменты в Premiere Pro и After Effects

Adobe анонсировала новые версии Premiere Pro и After Effects, в которых добавлен AI-функционал, позволяющий ускорить редактирование видео. Среди новых инструментов – редактирование видео по автоматически сгенерированной транскрипции и автоподбор цветового…

Lang: анализ диалогов клиентов со службой поддержки

28 мая 2022

Lang: анализ диалогов клиентов со службой поддержки

Стартап Lang разработал систему, которая интегрируется со службой поддержки и CRM для автоматического распознавания темы разговора и выявления трендов в причинах обращений клиентов. Инструмент использует неконтролируемую модель обучения для адаптации…

Модель обучили выполнять кросс-модальный поиск действий

9 мая 2022

Модель обучили выполнять кросс-модальный поиск действий

В MIT разработали модель кросс-модального поиска действий в текстовом, аудио- и видеоконтенте. Модель позволяет определить, где в видео происходит определенное действие, и идентифицировать его. Алгоритм обучен представлять данные таким образом,…

Google тестирует приложение для людей с нарушениями речи

20 ноября 2021

Google тестирует приложение для людей с нарушениями речи

Google приглашает людей с нарушениями речи присоединиться к тестированию Android-приложения Project Relate. Приложение нацелено на упрощение общения людей с инсультом, БАС, болезнью Паркинсона и другими заболеваниями. Проект Relate стал возможным благодаря…

Commonsense-Dialogues: датасет диалогов из Amazon Mechanical Turk

12 ноября 2021
датасет диалогов Amazon Mechanical Turk

Commonsense-Dialogues: датасет диалогов из Amazon Mechanical Turk

Commonsense-Dialogues — датасет диалогов Amazon, содержащий 11 000 примеров общения из повседневной жизни. Датасет диал нацелен на обучение моделей понимать скрытые смыслы реплик. На сегодняшний день ИИ-ассистенты плохо справляются с…

PARP: алгоритм прунинга моделей распознавания речи

6 ноября 2021

PARP: алгоритм прунинга моделей распознавания речи

PARP — наиболее эффективный среди аналогов метод обрезки больших моделей распознавания речи. PARP может применяться для автоматического распознавания речи на редких языках. Технология распознавания речи стала более распространенной с ростом…

Проект CETI: применение машинного обучения для распознавания речи животных

20 сентября 2021

Проект CETI: применение машинного обучения для распознавания речи животных

Коллаборация CETI использует модели машинного обучения для расшифровки способов коммуникации кашалотов. В команду входят десятки ученых, включая экспертов в области обработки естественного языка, морской биологии и подводной акустики. Дорожная карта…

Применение глубокого обучения в приложениях для продуктивности

12 сентября 2021

Применение глубокого обучения в приложениях для продуктивности

В статье приводится обзор приложений для повышения продуктивности на основе глубокого обучения, позволяющих автоматически транскрибировать онлайн-собрания, редактировать тексты, управлять качеством сна и решать другие задачи. 1. Otter.ai Otter.ai — виртуальный…

Duolingo использует нейросети для обучения иностранным языкам

1 сентября 2021

Duolingo использует нейросети для обучения иностранным языкам

Компания Duolingo внедряет модель искусственного интеллекта Birdbrain в приложение для изучения иностранных языков. Нейросеть Duolingo будет предлагать пользователям персонализированные задания, нацеленные на повышение мотивации к обучению и эффективности занятий. На…

FRILL: модель Google речевых представлений для мобильных устройств

11 июня 2021

FRILL: модель Google речевых представлений для мобильных устройств

Google AI представила FRILL — усовершенствованную версию модели речевых представлений TRILL, выпущенной в прошлом году. FRILL в 32 раза быстрее и занимает в 2.5 раза меньше места, чем TRILL, что…

Нейросеть распознает речь на разных языках end-to-end

1 октября 2019

Нейросеть распознает речь на разных языках end-to-end

Google опубликовали end-to-end модель, которая распознает речь на разных языках end-to-end. Разработчики использовали модель для малопредставленных языков, которым не хватает данных для обучения. Нейросеть обучалась на аудиозаписях 9 индийских языков.…

Brain2Char: нейросеть декодирует текст из показаний мозга

16 сентября 2019

Brain2Char: нейросеть декодирует текст из показаний мозга

Brain2Char — это нейросеть, которая из показаний мозга декодирует информацию в текст. Это первая модель, которая на основе электрокортикографии решает задачу посимвольного восстановления текста. Brain2Char объединяет в себе state-of-the-art модели:…

Нейросеть от Google AI различает спикеров на аудиозаписи

19 августа 2019

Нейросеть от Google AI различает спикеров на аудиозаписи

Разработчики в Google AI опубликовали нейросетевую модель, которая распознает спикеров на аудиозаписи. Нейросеть была протестирована на задаче распознавания аудиозаписей медицинских обследований. В сравнении с state-of-the-art моделью предложенный подход сокращает процент…

Amazon Alexa распознает эмоции по голосу с помощью нейросетей

4 июня 2019

Amazon Alexa распознает эмоции по голосу с помощью нейросетей

Разработчики из Alexa Research в Amazon опубликовали описание модели, которая распознает эмоции по интонации голоса человека. В качестве модели разработчики использовали автокодировщик, который позволяет обучаться на неразмеченных данных. Обычно классификация…

Google AI разработали нейросеть по перевода речи с одного языка на другой

18 мая 2019
нейросеть переводит речь на аудио

Google AI разработали нейросеть по перевода речи с одного языка на другой

В Google AI обучили Translatotron — нейросеть, которая принимает на вход аудиозапись с речью и на выходе отдает аудиозапись с той же фразой, переведенной на другой язык. Translatotron может как…

В Amazon обучили нейросеть, которая улучшает работу Alexa на 15%

27 апреля 2019
обучение amazon alexa

В Amazon обучили нейросеть, которая улучшает работу Alexa на 15%

Исследователи Amazon опубликовали архитектуру нейросети, которая чистит аудиозапись от фонового шума. Это поможет голосовому помощнику Alexa не воспринимать речь, которая не была ей адресована, и оптимизирует работу продукта на 15%.…

SpecAugment: алгоритм аугментации аудиоданных от Google AI

23 апреля 2019
audio google

SpecAugment: алгоритм аугментации аудиоданных от Google AI

Исследователи из Google AI разработали алгоритм SpecAugment для понижения размерности аудиоданных. Использование SpecAugment при обучении нейросети помогает побить State-of-the-Art результаты по автоматическому распознаванию речи. Описание проблемы Автоматическое распознавание речи —…

В США тайно собирают базу данных отпечатков голосов заключенных

7 февраля 2019

В США тайно собирают базу данных отпечатков голосов заключенных

В тюрьмах Нью-Йорка и других штатов по всей стране собирают базы данных «голосовых отпечатков» заключенных, используя технологии распознавания. По оценкам исследователей, власти собрали уже более 200 000 голосов разных людей.…

Приложение Google Live Transcribe переводит речь в текст в реальном времени

5 февраля 2019

Приложение Google Live Transcribe переводит речь в текст в реальном времени

Специально для глухих и слабослышащих людей Google разработала приложение, которое распознает речь и создает субтитры в онлайн режиме. Люди, потерявшие слух, смогут участвовать в беседах и посещать общественные мероприятия без…