Нейросеть сегментирует объекты на видеозаписи без размеченных данных

24 января 2020

Нейросеть сегментирует объекты на видеозаписи без размеченных данных

COSNet — это нейросетевая модель для unsupervised сегментации объектов на видео. Исследователи используют механизм глобального со-внимания, чтобы вычленить корреляцию между кадрами видеозаписи. COSNet обходит текущие state-of-the-art подходы в задаче unsupervised…

Deep Plastic Surgery: нейросеть редактирует изображения лиц по скетчу

23 января 2020

Deep Plastic Surgery: нейросеть редактирует изображения лиц по скетчу

Deep Plastic Surgery — это нейросетевой фреймворк, который позволяет пользователям синтезировать изображение на основе скетча и редактировать сгенерированное изображение. Модель устойчива к ошибкам в рисунках и генерирует реалистичные изображения лиц…

Сжатие изображений с помощью нейросетей

19 января 2020

Сжатие изображений с помощью нейросетей

Исследователи из Tel-Aviv University предложили нейросетевую архитектуру для сжатия изображений. Нейросеть использует стороннюю информацию (Side Information) при генерации сжатого изображения. Исследователи протестировали нейросеть на датасете KITTI. Модель позволяет сжимать изображения…

CenterMask: instance сегментация в реальном времени

18 января 2020

CenterMask: instance сегментация в реальном времени

CenterMask — это нейросетевая модель для instance сегментации в реальном времени. Нейросеть основывается на архитектуре одноступенчатого детектора объектов FCOS. Исследователи добавили к FCOS архитектуре новый блок spatial attention-guided mask (SAG-Mask).…

Reformer: трансформер, который тратит меньше памяти и быстрее обрабатывает данные

18 января 2020

Reformer: трансформер, который тратит меньше памяти и быстрее обрабатывает данные

Трансформеры являются state-of-the-art архитектурой для решения задач обработки естественного языка. Reformer — это модификация для стандартного трансформера, которая позволяет расходовать меньше памяти и быстрее обрабатывает данные при обучении. В стандартном…

Нейросеть генерирует видео с говорящим человеком по аудиозаписи

16 января 2020

Нейросеть генерирует видео с говорящим человеком по аудиозаписи

Исследователи из SenseTime опубликовали генеративную нейросеть, которая воспроизводит видеозапись говорящего человека по аудио с разговором. Модель принимает на вход изображение целевой персоны и аудиозапись с речью. На выходе модель отдает…

Как в Google AI используют нейросети для предсказания осадков

16 января 2020

Как в Google AI используют нейросети для предсказания осадков

В Google AI использовали сверточную нейросеть для предсказания атмосферных осадков на ближайшие 6 часов. Модель основывается на архитектуре U-Net. Предложенная нейросеть обходит традиционные модели для предсказания осадков по точности предсказаний.…

Digit: первый коммерческий двуногий робот для доставки посылок

15 января 2020

Digit: первый коммерческий двуногий робот для доставки посылок

Американский стартап Agility Robotics анонсировали начало продаж своего двуногого робота для доставки посылок Digit. В первой партии всего произвели 6 роботов. Два экземпляра выкупил Ford. Компания планирует исследовать возможность использования…

Wav2letter@anywhere: нейросеть для распознавания речи онлайн от FAIR

15 января 2020

Wav2letter@anywhere: нейросеть для распознавания речи онлайн от FAIR

Онлайн распознавание речи — это задача транскрибирования речи в реальном времени из входного потока аудиоданных. FAIR опубликовали нейросетевую модель, которая обходит state-of-the-art подходы для онлайн распознавания речи на датасете LibriSpeech.…

HybridPose: нейросеть распознает позу объекта в 6D

14 января 2020

HybridPose: нейросеть распознает позу объекта в 6D

HybridPose — это нейросетевая модель для распознавания позы объекта в 6D. Модель принимает на вход изображение объекта и предсказывает ключевые точки, векторы границ и отношение позы объекта относительно его стандартного…

FNNP: уменьшение размера нейросети с помощью батч-нормализации

10 января 2020

FNNP: уменьшение размера нейросети с помощью батч-нормализации

FNNP — это алгоритм для сокращения размера обученной нейросети. Во время экспериментов исследователи сокращали размер MobileNet V1 и ResNet-50. FNNP обошла предыдущие подходы на 3.8% по итоговой точности предсказаний уменьшенной…

Как глубокое обучение с подкреплением используется в видео-играх

3 января 2020

Как глубокое обучение с подкреплением используется в видео-играх

В глубоком обучении с подкреплением (DRL) агенты принимают на вход многомерные данные и используют нейросетевые политики, чтобы совершать действия. При таком устройстве обучения политика, в соответствии с которой выбираются действия,…

nnAudio: инструмент для генерации спектрограммы во время обучения модели

31 декабря 2019

nnAudio: инструмент для генерации спектрограммы во время обучения модели

nnAudio — это опенсорс инструмент на Pytorch для обработки аудиозаписей с помощью однослойной сверточной сети. С помощью nnAudio можно генерировать спектрограммы на ходу во время обучения нейросети. Библиотека построена на…

Нейросеть классифицирует фейковые и реальные изображения

31 декабря 2019

Нейросеть классифицирует фейковые и реальные изображения

Исследователи из UC Berkeley и Adobe Research обучили нейросетевой классификатор, который определяет фейковые изображения. Классификатор обучался на сгенерированных одной моделью изображениях. При этом он обобщается на изображения, которые были сгенерированы…

Нейросеть генерирует аудиозапись с пением на основе обычного голоса

30 декабря 2019

Нейросеть генерирует аудиозапись с пением на основе обычного голоса

В Tencent AI разработали нейросетевой алгоритм для генерации аудиозаписи с пением человека на основе его обычного голоса. Алгоритм основывается на архитектуре DurIAN. Примеры сгенерированных аудиозаписей доступны по ссылке. Предложенный алгоритм…

MGT: графовая нейросеть для распознавания набросков

30 декабря 2019

MGT: графовая нейросеть для распознавания набросков

MGT — это архитектура нейросети, которая адаптирована для распознавания набросков. Модель обрабатывает наброски в виде графов. MGT выучивает геометрические и временные признаки рисунков. Предложенный подход протестировали на датасете Google QuickDraw.…

SynSin: end-to-end генерация сцены на основе одного изображения

25 декабря 2019

SynSin: end-to-end генерация сцены на основе одного изображения

SynSin — это нейросеть, которая принимает на вход изображение сцены и генерирует изображения данной сцены в других ракурсах. Модель предсказывает 3D облако точек, которые проецируется на новые ракурсы с помощью…

Робот имитирует поведение человека с помощью нейросети

25 декабря 2019

Робот имитирует поведение человека с помощью нейросети

AVID — это метод для обучения роботов действиям через воображение и наблюдение за людьми. Модель принимает на вход видео с демонстрацией действия человеком и генерирует видео с демонстрацией роботом. Исследователи…

FastSpeech: модель для генерации речи из текста от Microsoft

22 декабря 2019

FastSpeech: модель для генерации речи из текста от Microsoft

FastSpeech — это нейросетевая модель для генерации речи из текста. Нейросеть работает на инференсе быстрее state-of-the-art подходов в 38 раз. Зачем нужна FastSpeech Нейросетевые модели на текущий момент являются state-of-the-art…

Датасет для распознавания данных не из обучающей выборки

21 декабря 2019
google logo

Датасет для распознавания данных не из обучающей выборки

Исследователи из Google Research предложили метод для распознавания объектов, которые сильно отличаются от объектов из обучающей выборки. Likelihood ratio — это метрика, которая минимизирует влияние заднего фона на предсказание и…

Как обучают нейросетевые модели для распознавания речи

18 декабря 2019

Как обучают нейросетевые модели для распознавания речи

Разработка разговорных систем состоит из трех шагов: обработка и траскрибирование аудиозаписи, понимание поставленного вопроса и генерация ответа в виде текста. Первый шаг достигается с помощью модели для распознавания речи. На…