Нейросеть распознает речь на разных языках end-to-end

1 октября 2019

Нейросеть распознает речь на разных языках end-to-end

Google опубликовали end-to-end модель, которая распознает речь на разных языках end-to-end. Разработчики использовали модель для малопредставленных языков, которым не хватает данных для обучения. Нейросеть обучалась на аудиозаписях 9 индийских языков.…

Brain2Char: нейросеть декодирует текст из показаний мозга

16 сентября 2019

Brain2Char: нейросеть декодирует текст из показаний мозга

Brain2Char — это нейросеть, которая из показаний мозга декодирует информацию в текст. Это первая модель, которая на основе электрокортикографии решает задачу посимвольного восстановления текста. Brain2Char объединяет в себе state-of-the-art модели:…

Нейросеть от Google AI различает спикеров на аудиозаписи

19 августа 2019

Нейросеть от Google AI различает спикеров на аудиозаписи

Разработчики в Google AI опубликовали нейросетевую модель, которая распознает спикеров на аудиозаписи. Нейросеть была протестирована на задаче распознавания аудиозаписей медицинских обследований. В сравнении с state-of-the-art моделью предложенный подход сокращает процент…

Amazon Alexa распознает эмоции по голосу с помощью нейросетей

4 июня 2019

Amazon Alexa распознает эмоции по голосу с помощью нейросетей

Разработчики из Alexa Research в Amazon опубликовали описание модели, которая распознает эмоции по интонации голоса человека. В качестве модели разработчики использовали автокодировщик, который позволяет обучаться на неразмеченных данных. Обычно классификация…

Google AI разработали нейросеть по переводу речи с одного языка на другой

18 мая 2019

Google AI разработали нейросеть по переводу речи с одного языка на другой

В Google AI обучили  Translatotron — нейросеть, которая принимает на вход аудиозапись с речью и на выходе отдает аудиозапись с той же фразой, переведенной на другой язык. Translatotron может как…

В Amazon обучили нейросеть, которая улучшает работу Alexa на 15%

27 апреля 2019
обучение amazon alexa

В Amazon обучили нейросеть, которая улучшает работу Alexa на 15%

Исследователи Amazon опубликовали архитектуру нейросети, которая чистит аудиозапись от фонового шума. Это поможет голосовому помощнику Alexa не воспринимать речь, которая не была ей адресована, и оптимизирует работу продукта на 15%.…

SpecAugment: алгоритм аугментации аудиоданных от Google AI

23 апреля 2019
audio google

SpecAugment: алгоритм аугментации аудиоданных от Google AI

Исследователи из Google AI разработали алгоритм SpecAugment для понижения размерности аудиоданных. Использование SpecAugment при обучении нейросети помогает побить State-of-the-Art результаты по автоматическому распознаванию речи. Описание проблемы Автоматическое распознавание речи —…

В США тайно собирают базу данных отпечатков голосов заключенных

7 февраля 2019

В США тайно собирают базу данных отпечатков голосов заключенных

В тюрьмах Нью-Йорка и других штатов по всей стране собирают базы данных «голосовых отпечатков» заключенных, используя технологии распознавания. По оценкам исследователей, власти собрали уже более 200 000 голосов разных людей.…

Приложение Google Live Transcribe переводит речь в текст в реальном времени

5 февраля 2019

Приложение Google Live Transcribe переводит речь в текст в реальном времени

Специально для глухих и слабослышащих людей Google разработала приложение, которое распознает речь и создает субтитры в онлайн режиме. Люди, потерявшие слух, смогут участвовать в беседах и посещать общественные мероприятия без…

В Google собрали датасет синтезированных голосов для конкурса по верификации говорящего

4 февраля 2019

В Google собрали датасет синтезированных голосов для конкурса по верификации говорящего

Исследователи из Google AI собрали датасет из тысяч сгенерированных фраз 68 голосами. Набор данных сейчас доступен только для участников челленджа ASVspoof 2019. На конкурсе (регистрация открыта до 8 февраля) разработчики должны будут создать алгоритмы, которые различают реальные и…

В MIT создали приложение для подсчета калорий с распознаванием речи

29 января 2019

В MIT создали приложение для подсчета калорий с распознаванием речи

СOCO Nutritionist — новое приложение для подсчета калорий на английском языке, которое оснащено алгоритмами распознавания речи. Добавить съеденные продукты теперь очень просто — достаточно сказать: «На завтрак я съел миску…

Facebook выложил модель распознавания речи Wav2Letter++ в открытый доступ

28 декабря 2018

Facebook выложил модель распознавания речи Wav2Letter++ в открытый доступ

Команда Facebook AI Research выложила в открытый доступ wav2letter ++ — модель распознавания речи, которая использует только сверточные нейронные сети (CNN). В задаче распознавания речи Wav2letter++ демонстрирует уровень ошибок 4.91-5% ,…

В СПбПУ создают алгоритм, имитирующий слуховой нерв

25 декабря 2018
классификатор, имитирующий слуховой нерв

В СПбПУ создают алгоритм, имитирующий слуховой нерв

В СПбПУ разрабатывают классификатор речевых потоков людей, говорящих в толпе или шумной обстановке. Алгоритм моделирует процесс рецепторного кодирования звуков — так работает человеческий слуховой нерв. Метод можно использовать в задачах…

В Китае создали технологию распознавания беззвучной речи для смартфона

23 октября 2018

В Китае создали технологию распознавания беззвучной речи для смартфона

Китайские исследователи из Университета Цинхуа представили Lip-Interact — инструмент, который позволяет смартфону распознавать беззвучные команды по движениям губ. В будущем разработка позволит давать команды помощнику беззвучно, если этого требует ситуация,…

В MIT разработали алгоритм, который распознает объекты по голосовому описанию

25 сентября 2018

В MIT разработали алгоритм, который распознает объекты по голосовому описанию

Учёные из Лаборатории информатики и искусственного интеллекта (CSAIL) в MIT представили нейросеть, которая распознаёт объекты на изображении, сопоставляя их с голосовым описанием. Исследователи считают, что разработка может улучшить технологии распознавания речи и перевод с…

Нейросеть DeepMind читает по губам лучше, чем другие алгоритмы

2 августа 2018
lip reading

Нейросеть DeepMind читает по губам лучше, чем другие алгоритмы

DeepMind создали алгоритм, который читает по губам с 59% точностью. Максимальный результат предыдущих разработок в этой области — 33%. Для обучения модели исследователи использовали 140 000 часов видео с YouTube. Специальная система обработала…