Российский Speech-to-text датасет (STT/ASR)

8 мая 2019
Российский Speech-to-text датасет

Российский Speech-to-text датасет (STT/ASR)

Группа российских разработчиков выпустила свободный датасет speech-to-text на русском языке, содержащий более 4000 тысяч часов записей с голосом для исследователей и разработчиков приложений с распознаванием речи. В ближайшее время создатели…

Deep Network Priors: unsupervised метод подавления аудиошума

26 апреля 2019
нейросеть для шумоподавления

Deep Network Priors: unsupervised метод подавления аудиошума

Ученые из Тель-Авивского университета разработали метод Deep Network Priors для шумоподавления, идея которого схожа с методом Deep Image Prior, но в применении к звуку. Он объединяет обработку как во временной,…

Нейросеть 2.5D Visual Sound превращает моно звучание в бинауральное при просмотре видео

29 декабря 2018
2.5d visual sound

Нейросеть 2.5D Visual Sound превращает моно звучание в бинауральное при просмотре видео

Рухан Гао из Техасского университета и Кристен Грауман из Facebook разработали метод преобразования монофонического звука в бинауральный при наличии одноканальной записи и видеоряда. Алгоритм назвали 2.5D Visual Sound, он работает…

The Sound Of Pixels: новый метод локализации и разделения звуков на видео

31 октября 2018

The Sound Of Pixels: новый метод локализации и разделения звуков на видео

Исследователи давно изучают взаимосвязь видео и звука и проблемы, связанные с их обработкой. В прошлом учёные рассматривали проблемы локализации звука в видео, создание аудио для видео без звука, обучение без учителя…