Нейросеть от Google AI различает спикеров на аудиозаписи

19 августа 2019

Нейросеть от Google AI различает спикеров на аудиозаписи

Разработчики в Google AI опубликовали нейросетевую модель, которая распознает спикеров на аудиозаписи. Нейросеть была протестирована на задаче распознавания аудиозаписей медицинских обследований. В сравнении с state-of-the-art моделью предложенный подход сокращает процент…

Нейросеть заполняет отсутствующие фрагменты в видеозаписи

14 августа 2019

Нейросеть заполняет отсутствующие фрагменты в видеозаписи

Исследователи использовали предсказание оптического потока для заполнения отсутствующих фрагментов в видеозаписи. Метод был протестирован на задачах DAVIS и YouTubeVOS. Модель получила state-of-the-art результаты по скорости обучения и качеству предсказаний. Оптический…

SelFlow: модель предсказывает передвижения объектов на видео

13 августа 2019

SelFlow: модель предсказывает передвижения объектов на видео

SelFlow — это нейросетевая модель, которая предсказывает последовательность передвижений объекта на видеозаписи. Нейросеть обучается как с учителем, так и без. По точности предсказаний SelFlow обходит state-of-the-art алгоритмы на 4-х задачах. …

Gated-SCNN: новый state-of-the-art в семантической сегментации

28 июля 2019

Gated-SCNN: новый state-of-the-art в семантической сегментации

Gated-SCNN — это двухпоточная сверточная нейросеть для семантической сегментации изображений. GSCNN обходит state-of-the-art архитектуры на 2-4% на задаче Cityscapes. Архитектура была разработана исследователями из NVIDIA. Текущие state-of-the-art методы для сегментации…

BigBiGAN: новый state-of-the-art подход в обучении представлений

15 июля 2019

BigBiGAN: новый state-of-the-art подход в обучении представлений

BigBiGAN — это генеративная нейросеть, которую адаптировали к задаче обучения представлений. В основе BigBiGAN лежит BigGAN,  — текущий state-of-the-art для генерации изображений. Модель была разработана исследователями из DeepMind. Состязательные генеративные…

DLRM: Facebook опубликовали нейросетевую рекомендательную систему

7 июля 2019

DLRM: Facebook опубликовали нейросетевую рекомендательную систему

Facebook опубликовали нейросетевую рекомендательную систему (DLRM) на PyTorch и Caffe2. DLRM работает достаточно быстро, чтобы использовать его в компании, и выдает state-of-the-art результаты. DLRM объединяет в себе принципы коллаборативной фильтрации…

XLNet: новый state-of-the-art в задачах обработки естественного языка

28 июня 2019

XLNet: новый state-of-the-art в задачах обработки естественного языка

XLNet — это предобученная модель, которую можно адаптировать под любую поставленную задачу обработки текста. XLNet обходит BERT, — state-of-the-art модель, — на 20 задачах обработки естественного языка. Для 18 XLNet…

Популяционный метод увеличивает скорость аугментации в 1000 раз

9 июня 2019
популяционный метод аугментации

Популяционный метод увеличивает скорость аугментации в 1000 раз

Новый Популяционный метод аугментации (Population based augmentation, PBA) сравним по качеству с текущим state-of-the-art методом AutoAugment от Google, однако работает в тысячу раз быстрее, что позволяет широко использовать его разработчикам.…

Mesh R-CNN: нейросеть, которая моделирует 3D форму объектов

8 июня 2019

Mesh R-CNN: нейросеть, которая моделирует 3D форму объектов

Mesh R-CNN — это нейросетевая архитектура, которая для объектов входного изображения предсказывает их форму. Модель была описана в работе от Facebook AI Research (FAIR). По метрикам Mesh R-CNN обходит существующие…

Рекомендательная система в Alibaba научилась учитывать последовательные действия клиентов

25 мая 2019

Рекомендательная система в Alibaba научилась учитывать последовательные действия клиентов

Исследователи из Alibaba Group опубликовали описание модели Behavior Sequence Transformer (BST), которая применяется в рекомендательной системе сайта Taobao. Особенность модели заключается в том, что она анализирует последовательности действий, совершенных пользователями.…

В Samsung AI разработали новый метод для трекинга позы человека на видео

16 мая 2019

В Samsung AI разработали новый метод для трекинга позы человека на видео

Исследователи из Samsung AI и Сколково представили новую архитектуру нейросети для трекинга позы человека на видео. Метод обходит state-of-the-art подходы в случае видеосъемки с нескольких камер.  Оценка позы человека в…

Deep Network Priors: unsupervised метод подавления аудиошума

26 апреля 2019
нейросеть для шумоподавления

Deep Network Priors: unsupervised метод подавления аудиошума

Ученые из Тель-Авивского университета разработали метод Deep Network Priors для шумоподавления, идея которого схожа с методом Deep Image Prior, но в применении к звуку. Он объединяет обработку как во временной,…

Пирамидальная сеть от FAIR показала state-of-the-art результаты в сегментации изображений

25 апреля 2019
segmentation

Пирамидальная сеть от FAIR показала state-of-the-art результаты в сегментации изображений

Исследователи из Facebook AI Research представили нейросеть Panoptic FPN для сегментации объектов на изображении, которая обходит конкурирующие модели в эффективности. Panoptic FPN показала state-of-the-art результаты в задачах как семантической, так…

MorphNet от Google: open source нейросеть для оптимизации нейросетей

23 апреля 2019
morphnet

MorphNet от Google: open source нейросеть для оптимизации нейросетей

Google AI представила модель MorphNet, которая берет на вход любую нейронную сеть и оптимизирует ее так, чтобы она имела большую скорость, меньший размер и лучшую производительность без потери качества модели…

Сеть HoloGAN генерирует вид сбоку и сверху на основе 2D изображения

8 апреля 2019
azimuth elevation gan

Сеть HoloGAN генерирует вид сбоку и сверху на основе 2D изображения

Группа исследователей предложила unsupervised модель GAN для восстановления 3D представлений из 2D изображений. Модель улучшила state-of-the-art результаты в генерации вида сбоку и сверху для предметов в датасетах Chairs и Cars.…

OpenAI представила масштабированную версию energy-based моделей

29 марта 2019
energy-based model

OpenAI представила масштабированную версию energy-based моделей

Преимущества energy-based моделей — генерализирующая способность и простота архитектуры. Но на практике их обучение вызывает сложности. Исследователи из OpenAI предложили способы оптимизации обучения EBM модели на основе MCMC (Marcov Chain…

Open source модель определения 3D позы по 2D изображению

18 марта 2019
оценка и предсказание 3D позы

Open source модель определения 3D позы по 2D изображению

Оценка позы человека в трехмерном пространстве находит применение во многих задачах: беспилотный транспорт, виртуальная реальность, спортивная аналитика и видеонаблюдение. Задача восстановления 3D позы человека по изображению встречается с большими трудностями,…

Беспилотные автомобили — насколько мы далеки от полной автономности?

6 февраля 2019
self-driving-cars

Беспилотные автомобили — насколько мы далеки от полной автономности?

Беспилотные автомобили в ближайшие несколько лет перестанут быть научной фантастикой. В последние несколько месяцев мы стали свидетелями стремительного развития этой технологии. Waymo (ранее проект Google, сейчас является частью Alphabet) два месяца назад запустил…

StyleGAN для генерации новых лиц опубликована в открытом доступе

5 февраля 2019
stylegan

StyleGAN для генерации новых лиц опубликована в открытом доступе

NVIDIA опубликовала код предобученной модели StyleGAN для генерации лиц, которые никогда не существовали. StyleGAN является state-of-the-art моделью с лучшими свойствами интерполяции и распутывания, способностью находить скрытые факторы вариации (определять положение лица…

Facebook выложил модель распознавания речи Wav2Letter++ в открытый доступ

28 декабря 2018

Facebook выложил модель распознавания речи Wav2Letter++ в открытый доступ

Команда Facebook AI Research выложила в открытый доступ wav2letter ++ — модель распознавания речи, которая использует только сверточные нейронные сети (CNN). В задаче распознавания речи Wav2letter++ демонстрирует уровень ошибок 4.91-5% ,…

Нейросеть StyleGAN генерирует идеальные новые лица с помощью алгоритмов переноса стиля

14 декабря 2018
stylegan

Нейросеть StyleGAN генерирует идеальные новые лица с помощью алгоритмов переноса стиля

Исследователи Nvidia опубликовали альтернативную архитектуру GAN, основанную на алгоритмах переноса стиля (style transfer). StyleGAN отделяет атрибуты высокого (например, позы и лица) и низкого уровня (веснушки и волосы) и генерирует новое…