Deep Plastic Surgery: нейросеть редактирует изображения лиц по скетчу

23 января 2020

Deep Plastic Surgery: нейросеть редактирует изображения лиц по скетчу

Deep Plastic Surgery — это нейросетевой фреймворк, который позволяет пользователям синтезировать изображение на основе скетча и редактировать сгенерированное изображение. Модель устойчива к ошибкам в рисунках и генерирует реалистичные изображения лиц…

Сжатие изображений с помощью нейросетей

19 января 2020

Сжатие изображений с помощью нейросетей

Исследователи из Tel-Aviv University предложили нейросетевую архитектуру для сжатия изображений. Нейросеть использует стороннюю информацию (Side Information) при генерации сжатого изображения. Исследователи протестировали нейросеть на датасете KITTI. Модель позволяет сжимать изображения…

3DPEOPLE: датасет с 3D моделями одетых людей

19 января 2020

3DPEOPLE: датасет с 3D моделями одетых людей

3DPeople — это первый датасет с изображениями 3D моделей одетых людей, в котором содержится отдельно геометрическое представление одежды. Датасет включает в себя 2.5 миллиона изображений с 80 людьми, которые совершают…

CenterMask: instance сегментация в реальном времени

18 января 2020

CenterMask: instance сегментация в реальном времени

CenterMask — это нейросетевая модель для instance сегментации в реальном времени. Нейросеть основывается на архитектуре одноступенчатого детектора объектов FCOS. Исследователи добавили к FCOS архитектуре новый блок spatial attention-guided mask (SAG-Mask).…

Reformer: трансформер, который тратит меньше памяти и быстрее обрабатывает данные

18 января 2020

Reformer: трансформер, который тратит меньше памяти и быстрее обрабатывает данные

Трансформеры являются state-of-the-art архитектурой для решения задач обработки естественного языка. Reformer — это модификация для стандартного трансформера, которая позволяет расходовать меньше памяти и быстрее обрабатывает данные при обучении. В стандартном…

Нейросеть генерирует видео с говорящим человеком по аудиозаписи

16 января 2020

Нейросеть генерирует видео с говорящим человеком по аудиозаписи

Исследователи из SenseTime опубликовали генеративную нейросеть, которая воспроизводит видеозапись говорящего человека по аудио с разговором. Модель принимает на вход изображение целевой персоны и аудиозапись с речью. На выходе модель отдает…

Kornia: библиотека для компьютерного зрения на PyTorch

16 января 2020

Kornia: библиотека для компьютерного зрения на PyTorch

Kornia — это библиотека для компьютерного зрения, написанная на PyTorch. Kornia выступает аналогом стандартной библиотеки для задач компьютерного зрения OpenCV. В отличие от традиционных фреймворков для CV задач, Kornia поддерживает…

AraNet: инструмент для анализа данных из социальных сетей на арабском

16 января 2020

AraNet: инструмент для анализа данных из социальных сетей на арабском

AraNet — это набор предобученных NLP моделей для работы с данными на арабском языке. В AraNet доступны датасеты из социальных сетей на арабском, чтобы обучать двусторонние энкодеры предсказывать возраст, диалект,…

Agriculture-Vision: соревнование по применению компьютерного зрения для сельского хозяйства

16 января 2020

Agriculture-Vision: соревнование по применению компьютерного зрения для сельского хозяйства

Agriculture-Vision — это датасет для семантической сегментации с фотографиями фермерских полей. Изображения были сняты с воздуха. Всего в датасете около 95 тысяч фотографий в высоком разрешении с 3 тысяч угодий…

Как в Google AI используют нейросети для предсказания осадков

16 января 2020

Как в Google AI используют нейросети для предсказания осадков

В Google AI использовали сверточную нейросеть для предсказания атмосферных осадков на ближайшие 6 часов. Модель основывается на архитектуре U-Net. Предложенная нейросеть обходит традиционные модели для предсказания осадков по точности предсказаний.…

Digit: первый коммерческий двуногий робот для доставки посылок

15 января 2020

Digit: первый коммерческий двуногий робот для доставки посылок

Американский стартап Agility Robotics анонсировали начало продаж своего двуногого робота для доставки посылок Digit. В первой партии всего произвели 6 роботов. Два экземпляра выкупил Ford. Компания планирует исследовать возможность использования…

Wav2letter@anywhere: нейросеть для распознавания речи онлайн от FAIR

15 января 2020

Wav2letter@anywhere: нейросеть для распознавания речи онлайн от FAIR

Онлайн распознавание речи — это задача транскрибирования речи в реальном времени из входного потока аудиоданных. FAIR опубликовали нейросетевую модель, которая обходит state-of-the-art подходы для онлайн распознавания речи на датасете LibriSpeech.…

HybridPose: нейросеть распознает позу объекта в 6D

14 января 2020

HybridPose: нейросеть распознает позу объекта в 6D

HybridPose — это нейросетевая модель для распознавания позы объекта в 6D. Модель принимает на вход изображение объекта и предсказывает ключевые точки, векторы границ и отношение позы объекта относительно его стандартного…

FNNP: уменьшение размера нейросети с помощью батч-нормализации

10 января 2020

FNNP: уменьшение размера нейросети с помощью батч-нормализации

FNNP — это алгоритм для сокращения размера обученной нейросети. Во время экспериментов исследователи сокращали размер MobileNet V1 и ResNet-50. FNNP обошла предыдущие подходы на 3.8% по итоговой точности предсказаний уменьшенной…

BlendMask: нейросеть обходит state-of-the-art на задаче сегментации объектов

8 января 2020

BlendMask: нейросеть обходит state-of-the-art на задаче сегментации объектов

BlendMask — это нейросетевая модель для instance сегментации объектов на изображении. Модель выдает более точные границы объектов, чем Mask R-CNN, на COCO датасете при схожих параметрах обучения. При этом BlendMask…

Libri-light: датасет для unsupervised распознавания речи от FAIR

3 января 2020

Libri-light: датасет для unsupervised распознавания речи от FAIR

FAIR опубликовали самый крупный датасет для распознавания речи. Libri-light содержит 60 тысяч часов неразмеченной речи на английском языке.  Данные для Libri-light собирали из общедоступных аудиофайлов и адаптировали для задачи автоматического…

Как глубокое обучение с подкреплением используется в видео-играх

3 января 2020

Как глубокое обучение с подкреплением используется в видео-играх

В глубоком обучении с подкреплением (DRL) агенты принимают на вход многомерные данные и используют нейросетевые политики, чтобы совершать действия. При таком устройстве обучения политика, в соответствии с которой выбираются действия,…

nnAudio: инструмент для генерации спектрограммы во время обучения модели

31 декабря 2019

nnAudio: инструмент для генерации спектрограммы во время обучения модели

nnAudio — это опенсорс инструмент на Pytorch для обработки аудиозаписей с помощью однослойной сверточной сети. С помощью nnAudio можно генерировать спектрограммы на ходу во время обучения нейросети. Библиотека построена на…

SketchTransfer: датасет для обучения нейросетей обобщению

31 декабря 2019

SketchTransfer: датасет для обучения нейросетей обобщению

SketchTransfer — это датасет для обучения нейросетей обобщению с помощью transfer learning. Данные состоят из реальных размеченных изображений и не размеченных скетчей. Стандартные state-of-the-art подходы, которые получают точность 95% на…

Нейросеть классифицирует фейковые и реальные изображения

31 декабря 2019

Нейросеть классифицирует фейковые и реальные изображения

Исследователи из UC Berkeley и Adobe Research обучили нейросетевой классификатор, который определяет фейковые изображения. Классификатор обучался на сгенерированных одной моделью изображениях. При этом он обобщается на изображения, которые были сгенерированы…

JSNet: семантическая и instance сегментация 3D облаков точек

30 декабря 2019

JSNet: семантическая и instance сегментация 3D облаков точек

JSNet — это нейросеть для end-to-end семантической и instance сегментации 3D облаков точек. Модель принимает на вход облако точек, а на выходе отдает разметку объектов для семантической и instance сегментации.…