DVD-GAN: новый state-of-the-art в генерации видео

30 августа 2019

DVD-GAN: новый state-of-the-art в генерации видео

DVD-GAN — это нейросеть для генерации видео, которая была разработана исследователями из DeepMind. По результатам экспериментов, DVD-GAN лучше предыдущих решений справляется с задачами генерации и предсказания видео. Модели тестировались на…

Нейросеть анализирует видео с камер во время операций

29 августа 2019

Нейросеть анализирует видео с камер во время операций

Kaliber Labs разрабатывают нейросеть, которая интерпретирует видео с камер внутри пациента во время операций. Модель определяет оперируемую область и выдает рекомендации, которые выводятся на монитор в операционной. Kaliber Labs —…

VideoGorillas используют нейросети для преобразования видео в 4К

26 августа 2019

VideoGorillas используют нейросети для преобразования видео в 4К

Разработчики в VideoGorillas обучили нейросеть улучшать разрешение видео. Нейросеть конвертирует видео из 480p разрешения в 4K. Модель используется для предсказания недостающих пикселей.  За последние несколько лет стандарты видеосъемки значительно возросли.…

Нейросеть заполняет отсутствующие фрагменты в видеозаписи

14 августа 2019

Нейросеть заполняет отсутствующие фрагменты в видеозаписи

Исследователи использовали предсказание оптического потока для заполнения отсутствующих фрагментов в видеозаписи. Метод был протестирован на задачах DAVIS и YouTubeVOS. Модель получила state-of-the-art результаты по скорости обучения и качеству предсказаний. Оптический…

Обновления: PyTorch 1.2, torchtext 0.4, torchaudio 0.3 и torchvision 0.4

14 августа 2019

Обновления: PyTorch 1.2, torchtext 0.4, torchaudio 0.3 и torchvision 0.4

Вышли обновления для библиотеки PyTorch и дополнительных библиотек для обработки текста, аудио и изображений. В PyTorch добавился модуль с трансформером, в torchaudio — новые способы трансформации и стандартизации аудиоданных, в…

SelFlow: модель предсказывает передвижения объектов на видео

13 августа 2019

SelFlow: модель предсказывает передвижения объектов на видео

SelFlow — это нейросетевая модель, которая предсказывает последовательность передвижений объекта на видеозаписи. Нейросеть обучается как с учителем, так и без. По точности предсказаний SelFlow обходит state-of-the-art алгоритмы на 4-х задачах. …

TCC: нейросеть накладывает звук на видеозапись

13 августа 2019

TCC: нейросеть накладывает звук на видеозапись

Temporal Cycle-Consistency Learning (TCC) — это алгоритм для распознавания действий на видеозаписи. TCC обучается self-supervised. Одно из применений алгоритма — перенос звука с одной видеозаписи на другую. Код нейросети доступен…

Нейросеть определила авторство спорных песен группы The Beatles

7 июля 2019

Нейросеть определила авторство спорных песен группы The Beatles

Исследователи из Гарварда проанализировали 8 наиболее спорных песен группы The Beatles, чтобы определить, кому на самом деле принадлежит их авторство. Многие хиты группы The Beatles были написаны Джоном Ленноном и…

YouTube-8M Segments: датасет с видеозаписями из YouTube

29 июня 2019

YouTube-8M Segments: датасет с видеозаписями из YouTube

YouTube-8M — это датасет с видеозаписями из YouTube, который собрали в Google. В обновленной версии датасета для части видеозаписей разметили содержание видео в динамике. Компания запустила соревнование по анализу видеоданных…

EDVR: нейросеть восстанавливает кадры из видеозаписи

3 июня 2019

EDVR: нейросеть восстанавливает кадры из видеозаписи

В соревновании по восстановлению видеозаписей NTIRE19 победила архитектура (EDVR), основанная на сверточных нейросетях. Модель решает проблемы восстановления резкости при приближении кадра и восстановления содержания размытых кадров в видеозаписи. Результаты EDVR…

Российский Speech-to-text датасет (STT/ASR)

8 мая 2019
Российский Speech-to-text датасет

Российский Speech-to-text датасет (STT/ASR)

Группа российских разработчиков выпустила свободный датасет speech-to-text на русском языке, содержащий более 4000 тысяч часов записей с голосом для исследователей и разработчиков приложений с распознаванием речи. В ближайшее время создатели…

Deep Network Priors: unsupervised метод подавления аудиошума

26 апреля 2019
нейросеть для шумоподавления

Deep Network Priors: unsupervised метод подавления аудиошума

Ученые из Тель-Авивского университета разработали метод Deep Network Priors для шумоподавления, идея которого схожа с методом Deep Image Prior, но в применении к звуку. Он объединяет обработку как во временной,…

Нейросеть 2.5D Visual Sound превращает моно звучание в бинауральное при просмотре видео

29 декабря 2018
2.5d visual sound

Нейросеть 2.5D Visual Sound превращает моно звучание в бинауральное при просмотре видео

Рухан Гао из Техасского университета и Кристен Грауман из Facebook разработали метод преобразования монофонического звука в бинауральный при наличии одноканальной записи и видеоряда. Алгоритм назвали 2.5D Visual Sound, он работает…

The Sound Of Pixels: новый метод локализации и разделения звуков на видео

31 октября 2018

The Sound Of Pixels: новый метод локализации и разделения звуков на видео

Исследователи давно изучают взаимосвязь видео и звука и проблемы, связанные с их обработкой. В прошлом учёные рассматривали проблемы локализации звука в видео, создание аудио для видео без звука, обучение без учителя…