Распознавание речи / Нейросети и глубокое обучение

NVIDIA Canary достигла 90% точности предсказания временных меток в синхронном переводе

28 мая 2025

NVIDIA Canary достигла 90% точности предсказания временных меток в синхронном переводе

Исследовательская команда NVIDIA представила подход для генерации временных меток на уровне слов в модели синхронного перевода Canary. Точная информация о времени критически важна для создания синхронизированных субтитров. Исследователи опубликовали код…

Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки

2 сентября 2024

Mini-Omni: первая открытая speech-to-speech модель, ведущая диалог без задержки

Mini-Omni — первая open source языковая модель, позволяющая вести диалог голосом с минимальной задержкой ответа и без использования внешних text-to-speech моделей. Метод Any Model Can Talk позволяет интегрировать речевые возможности…

ChatGPT научился вести диалог голосом и распознавать объекты на изображениях

25 сентября 2023

ChatGPT conversations and image recognition

ChatGPT научился вести диалог голосом и распознавать объекты на изображениях

В ChatGPT внедрили функции общения голосом и распознавания объектов на изображении для углубленного погружения в задачу. Например, ChatGPT готов будет прочитать сказку на ночь, поможет справится с составлением рецепта по…

Deepdub Go и еще 5 нейросетей для дубляжа видео на 65 языков с копированием голоса диктора

9 июля 2023

ai for video dubbing - neural network based service

Deepdub Go и еще 5 нейросетей для дубляжа видео на 65 языков с копированием голоса диктора

Израильский стартап Deepdub анонсировал Deepdub Go – сервис автоматического дубляжа видео на 65 языков при помощи нейросети. Целевая аудитория платформы – студии разработки игр, рекламные агентства, платформы онлайн-обучения и другие…

AudioPaLM: мультимодальная модель от Google для голосового перевода

29 июня 2023

AudioPaLM: мультимодальная модель от Google для голосового перевода

Google представила AudioPaLM — большую языковую модель для обработки и генерации речи, объединяющую две языковые модели от Google — PaLM-2 и AudioLM — в мультимодальную архитектуру. Модель умеет распознавать речь,…

Adobe добавила AI-инструменты в Premiere Pro и After Effects

13 апреля 2023

Adobe добавила AI-инструменты в Premiere Pro и After Effects

Adobe анонсировала новые версии Premiere Pro и After Effects, в которых добавлен AI-функционал, позволяющий ускорить редактирование видео. Среди новых инструментов – редактирование видео по автоматически сгенерированной транскрипции и автоподбор цветового…

Lang: анализ диалогов клиентов со службой поддержки

28 мая 2022

Lang: анализ диалогов клиентов со службой поддержки

Стартап Lang разработал систему, которая интегрируется со службой поддержки и CRM для автоматического распознавания темы разговора и выявления трендов в причинах обращений клиентов. Инструмент использует неконтролируемую модель обучения для адаптации…

Модель обучили выполнять кросс-модальный поиск действий

9 мая 2022

Модель обучили выполнять кросс-модальный поиск действий

В MIT разработали модель кросс-модального поиска действий в текстовом, аудио- и видеоконтенте. Модель позволяет определить, где в видео происходит определенное действие, и идентифицировать его. Алгоритм обучен представлять данные таким образом,…

Google тестирует приложение для людей с нарушениями речи

20 ноября 2021

Google тестирует приложение для людей с нарушениями речи

Google приглашает людей с нарушениями речи присоединиться к тестированию Android-приложения Project Relate. Приложение нацелено на упрощение общения людей с инсультом, БАС, болезнью Паркинсона и другими заболеваниями. Проект Relate стал возможным благодаря…

Commonsense-Dialogues: датасет диалогов из Amazon Mechanical Turk

12 ноября 2021

Commonsense-Dialogues: датасет диалогов из Amazon Mechanical Turk

Commonsense-Dialogues — датасет диалогов Amazon, содержащий 11 000 примеров общения из повседневной жизни. Датасет диал нацелен на обучение моделей понимать скрытые смыслы реплик. На сегодняшний день ИИ-ассистенты плохо справляются с…

PARP: алгоритм прунинга моделей распознавания речи

6 ноября 2021

PARP: алгоритм прунинга моделей распознавания речи

PARP — наиболее эффективный среди аналогов метод обрезки больших моделей распознавания речи. PARP может применяться для автоматического распознавания речи на редких языках. Технология распознавания речи стала более распространенной с ростом…

Проект CETI: применение машинного обучения для распознавания речи животных

20 сентября 2021

Проект CETI: применение машинного обучения для распознавания речи животных

Коллаборация CETI использует модели машинного обучения для расшифровки способов коммуникации кашалотов. В команду входят десятки ученых, включая экспертов в области обработки естественного языка, морской биологии и подводной акустики. Дорожная карта…

Применение глубокого обучения в приложениях для продуктивности

12 сентября 2021

Применение глубокого обучения в приложениях для продуктивности

В статье приводится обзор приложений для повышения продуктивности на основе глубокого обучения, позволяющих автоматически транскрибировать онлайн-собрания, редактировать тексты, управлять качеством сна и решать другие задачи. 1. Otter.ai Otter.ai — виртуальный…

Duolingo использует нейросети для обучения иностранным языкам

1 сентября 2021

Duolingo использует нейросети для обучения иностранным языкам

Компания Duolingo внедряет модель искусственного интеллекта Birdbrain в приложение для изучения иностранных языков. Нейросеть Duolingo будет предлагать пользователям персонализированные задания, нацеленные на повышение мотивации к обучению и эффективности занятий. На…

FRILL: модель Google речевых представлений для мобильных устройств

11 июня 2021

FRILL: модель Google речевых представлений для мобильных устройств

Google AI представила FRILL — усовершенствованную версию модели речевых представлений TRILL, выпущенной в прошлом году. FRILL в 32 раза быстрее и занимает в 2.5 раза меньше места, чем TRILL, что…

Нейросеть распознает речь на разных языках end-to-end

1 октября 2019

Нейросеть распознает речь на разных языках end-to-end

Google опубликовали end-to-end модель, которая распознает речь на разных языках end-to-end. Разработчики использовали модель для малопредставленных языков, которым не хватает данных для обучения. Нейросеть обучалась на аудиозаписях 9 индийских языков.…

Brain2Char: нейросеть декодирует текст из показаний мозга

16 сентября 2019

Brain2Char: нейросеть декодирует текст из показаний мозга

Brain2Char — это нейросеть, которая из показаний мозга декодирует информацию в текст. Это первая модель, которая на основе электрокортикографии решает задачу посимвольного восстановления текста. Brain2Char объединяет в себе state-of-the-art модели:…

Нейросеть от Google AI различает спикеров на аудиозаписи

19 августа 2019

Нейросеть от Google AI различает спикеров на аудиозаписи

Разработчики в Google AI опубликовали нейросетевую модель, которая распознает спикеров на аудиозаписи. Нейросеть была протестирована на задаче распознавания аудиозаписей медицинских обследований. В сравнении с state-of-the-art моделью предложенный подход сокращает процент…

Amazon Alexa распознает эмоции по голосу с помощью нейросетей

4 июня 2019

Amazon Alexa распознает эмоции по голосу с помощью нейросетей

Разработчики из Alexa Research в Amazon опубликовали описание модели, которая распознает эмоции по интонации голоса человека. В качестве модели разработчики использовали автокодировщик, который позволяет обучаться на неразмеченных данных. Обычно классификация…