AV-HuBERT: распознавание речи по губам

7 января 2022

AV-HuBERT: распознавание речи по губам

Meta представила AV—HuBERT — фреймворк распознавания речи одновременно по ее звуку и движению губ говорящего. Точность распознавания AV-Hubert на 75% выше, чем у state-of-the-art моделей, обученных на таком же количестве…

XLS-R: модель FAIR распознавания речи на 128 языках

21 ноября 2021

XLS-R: модель FAIR распознавания речи на 128 языках

FAIR выложила в открытый доступ код XLS-R — самообучающейся модели, выполняющей распознавание речи. XLS-R поддерживает 128 языков и превосходит в бенчмарках все предыдущие мультиязыковые модели. Цель, которую преследовали  разработчики XLS-R…

Google тестирует приложение для людей с нарушениями речи

20 ноября 2021

Google тестирует приложение для людей с нарушениями речи

Google приглашает людей с нарушениями речи присоединиться к тестированию Android-приложения Project Relate. Приложение нацелено на упрощение общения людей с инсультом, БАС, болезнью Паркинсона и другими заболеваниями. Проект Relate стал возможным благодаря…

Commonsense-Dialogues: датасет Amazon повседневных диалогов

12 ноября 2021

Commonsense-Dialogues: датасет Amazon повседневных диалогов

Commonsense-Dialogues — датасет Amazon, содержащий 11 000 диалогов из повседневной жизни. Датасет нацелен на обучение моделей понимать скрытые смыслы реплик. На сегодняшний день ИИ-ассистенты плохо справляются с распознаванием эмоций и…

PARP: алгоритм прунинга моделей распознавания речи

6 ноября 2021

PARP: алгоритм прунинга моделей распознавания речи

PARP — наиболее эффективный среди аналогов метод обрезки больших моделей распознавания речи. PARP может применяться для автоматического распознавания речи на редких языках. Технология распознавания речи стала более распространенной с ростом…

Проект CETI: применение машинного обучения для распознавания речи животных

20 сентября 2021

Проект CETI: применение машинного обучения для распознавания речи животных

Коллаборация CETI использует модели машинного обучения для расшифровки способов коммуникации кашалотов. В команду входят десятки ученых, включая экспертов в области обработки естественного языка, морской биологии и подводной акустики. Дорожная карта…

Применение глубокого обучения в приложениях для продуктивности

12 сентября 2021

Применение глубокого обучения в приложениях для продуктивности

В статье приводится обзор приложений для повышения продуктивности на основе глубокого обучения, позволяющих автоматически транскрибировать онлайн-собрания, редактировать тексты, управлять качеством сна и решать другие задачи. 1. Otter.ai Otter.ai — виртуальный…

Duolingo использует модели для обучения иностранным языкам

1 сентября 2021

Duolingo использует модели для обучения иностранным языкам

Компания Duolingo внедряет модель Birdbrain в приложение для изучения иностранных языков. Алгоритм будет предлагать пользователям персонализированные задания, нацеленные на повышение мотивации к обучению и эффективности занятий. На сегодняшний типичный урок…

FRILL: модель Google речевых представлений для мобильных устройств

11 июня 2021

FRILL: модель Google речевых представлений для мобильных устройств

Google AI представила FRILL — усовершенствованную версию модели речевых представлений TRILL, выпущенной в прошлом году. FRILL в 32 раза быстрее и занимает в 2.5 раза меньше места, чем TRILL, что…

Нейросеть распознает речь на разных языках end-to-end

1 октября 2019

Нейросеть распознает речь на разных языках end-to-end

Google опубликовали end-to-end модель, которая распознает речь на разных языках end-to-end. Разработчики использовали модель для малопредставленных языков, которым не хватает данных для обучения. Нейросеть обучалась на аудиозаписях 9 индийских языков.…

Brain2Char: нейросеть декодирует текст из показаний мозга

16 сентября 2019

Brain2Char: нейросеть декодирует текст из показаний мозга

Brain2Char — это нейросеть, которая из показаний мозга декодирует информацию в текст. Это первая модель, которая на основе электрокортикографии решает задачу посимвольного восстановления текста. Brain2Char объединяет в себе state-of-the-art модели:…

Нейросеть от Google AI различает спикеров на аудиозаписи

19 августа 2019

Нейросеть от Google AI различает спикеров на аудиозаписи

Разработчики в Google AI опубликовали нейросетевую модель, которая распознает спикеров на аудиозаписи. Нейросеть была протестирована на задаче распознавания аудиозаписей медицинских обследований. В сравнении с state-of-the-art моделью предложенный подход сокращает процент…

Amazon Alexa распознает эмоции по голосу с помощью нейросетей

4 июня 2019

Amazon Alexa распознает эмоции по голосу с помощью нейросетей

Разработчики из Alexa Research в Amazon опубликовали описание модели, которая распознает эмоции по интонации голоса человека. В качестве модели разработчики использовали автокодировщик, который позволяет обучаться на неразмеченных данных. Обычно классификация…

Google AI разработали нейросеть по переводу речи с одного языка на другой

18 мая 2019

Google AI разработали нейросеть по переводу речи с одного языка на другой

В Google AI обучили  Translatotron — нейросеть, которая принимает на вход аудиозапись с речью и на выходе отдает аудиозапись с той же фразой, переведенной на другой язык. Translatotron может как…

В Amazon обучили нейросеть, которая улучшает работу Alexa на 15%

27 апреля 2019
обучение amazon alexa

В Amazon обучили нейросеть, которая улучшает работу Alexa на 15%

Исследователи Amazon опубликовали архитектуру нейросети, которая чистит аудиозапись от фонового шума. Это поможет голосовому помощнику Alexa не воспринимать речь, которая не была ей адресована, и оптимизирует работу продукта на 15%.…

SpecAugment: алгоритм аугментации аудиоданных от Google AI

23 апреля 2019
audio google

SpecAugment: алгоритм аугментации аудиоданных от Google AI

Исследователи из Google AI разработали алгоритм SpecAugment для понижения размерности аудиоданных. Использование SpecAugment при обучении нейросети помогает побить State-of-the-Art результаты по автоматическому распознаванию речи. Описание проблемы Автоматическое распознавание речи —…

В США тайно собирают базу данных отпечатков голосов заключенных

7 февраля 2019

В США тайно собирают базу данных отпечатков голосов заключенных

В тюрьмах Нью-Йорка и других штатов по всей стране собирают базы данных «голосовых отпечатков» заключенных, используя технологии распознавания. По оценкам исследователей, власти собрали уже более 200 000 голосов разных людей.…

Приложение Google Live Transcribe переводит речь в текст в реальном времени

5 февраля 2019

Приложение Google Live Transcribe переводит речь в текст в реальном времени

Специально для глухих и слабослышащих людей Google разработала приложение, которое распознает речь и создает субтитры в онлайн режиме. Люди, потерявшие слух, смогут участвовать в беседах и посещать общественные мероприятия без…

В Google собрали датасет синтезированных голосов для конкурса по верификации говорящего

4 февраля 2019

В Google собрали датасет синтезированных голосов для конкурса по верификации говорящего

Исследователи из Google AI собрали датасет из тысяч сгенерированных фраз 68 голосами. Набор данных сейчас доступен только для участников челленджа ASVspoof 2019. На конкурсе (регистрация открыта до 8 февраля) разработчики должны будут создать алгоритмы, которые различают реальные и…

В MIT создали приложение для подсчета калорий с распознаванием речи

29 января 2019

В MIT создали приложение для подсчета калорий с распознаванием речи

СOCO Nutritionist — новое приложение для подсчета калорий на английском языке, которое оснащено алгоритмами распознавания речи. Добавить съеденные продукты теперь очень просто — достаточно сказать: «На завтрак я съел миску…

Facebook выложил модель распознавания речи Wav2Letter++ в открытый доступ

28 декабря 2018

Facebook выложил модель распознавания речи Wav2Letter++ в открытый доступ

Команда Facebook AI Research выложила в открытый доступ wav2letter ++ — модель распознавания речи, которая использует только сверточные нейронные сети (CNN). В задаче распознавания речи Wav2letter++ демонстрирует уровень ошибок 4.91-5% ,…