Нейросеть определила авторство спорных песен группы The Beatles

7 июля 2019

Нейросеть определила авторство спорных песен группы The Beatles

Исследователи из Гарварда проанализировали 8 наиболее спорных песен группы The Beatles, чтобы определить, кому на самом деле принадлежит их авторство. Многие хиты группы The Beatles были написаны Джоном Ленноном и…

YouTube-8M Segments: датасет с видеозаписями из YouTube

29 июня 2019

YouTube-8M Segments: датасет с видеозаписями из YouTube

YouTube-8M — это датасет с видеозаписями из YouTube, который собрали в Google. В обновленной версии датасета для части видеозаписей разметили содержание видео в динамике. Компания запустила соревнование по анализу видеоданных…

EDVR: нейросеть восстанавливает кадры из видеозаписи

3 июня 2019

EDVR: нейросеть восстанавливает кадры из видеозаписи

В соревновании по восстановлению видеозаписей NTIRE19 победила архитектура (EDVR), основанная на сверточных нейросетях. Модель решает проблемы восстановления резкости при приближении кадра и восстановления содержания размытых кадров в видеозаписи. Результаты EDVR…

Российский Speech-to-text датасет (STT/ASR)

8 мая 2019
Российский Speech-to-text датасет

Российский Speech-to-text датасет (STT/ASR)

Группа российских разработчиков выпустила свободный датасет speech-to-text на русском языке, содержащий более 4000 тысяч часов записей с голосом для исследователей и разработчиков приложений с распознаванием речи. В ближайшее время создатели…

Deep Network Priors: unsupervised метод подавления аудиошума

26 апреля 2019
нейросеть для шумоподавления

Deep Network Priors: unsupervised метод подавления аудиошума

Ученые из Тель-Авивского университета разработали метод Deep Network Priors для шумоподавления, идея которого схожа с методом Deep Image Prior, но в применении к звуку. Он объединяет обработку как во временной,…

Нейросеть 2.5D Visual Sound превращает моно звучание в бинауральное при просмотре видео

29 декабря 2018
2.5d visual sound

Нейросеть 2.5D Visual Sound превращает моно звучание в бинауральное при просмотре видео

Рухан Гао из Техасского университета и Кристен Грауман из Facebook разработали метод преобразования монофонического звука в бинауральный при наличии одноканальной записи и видеоряда. Алгоритм назвали 2.5D Visual Sound, он работает…

The Sound Of Pixels: новый метод локализации и разделения звуков на видео

31 октября 2018

The Sound Of Pixels: новый метод локализации и разделения звуков на видео

Исследователи давно изучают взаимосвязь видео и звука и проблемы, связанные с их обработкой. В прошлом учёные рассматривали проблемы локализации звука в видео, создание аудио для видео без звука, обучение без учителя…