Soft-IntroVAE: генерация стабильных и реалистичных изображений

7 января 2021

Soft-IntroVAE: генерация стабильных и реалистичных изображений

Soft-IntroVAE — это улучшенная версия глубокого вариационного автоэнкодера IntroVAE. Soft-IntroVAE генерирует более стабильные и реалистичные изображения в сравнении с IntroVAE. Модель предложили исследователи из университета Technion. Кроме повышения стабильности автоэнкодера,…

GraphTransformer: расширение языковой модели для графов

6 января 2021

GraphTransformer: расширение языковой модели для графов

GraphTransformer — это расширение Transformer языковой модели для графовых данных. Зачем это нужно Оригинальный трансформер разрабатывали для обработки естественного языка. Стандартная модель работает с полносвязными графами, которые представляют связи между…

Нейросеть обучается генерировать изображения за несколько часов

5 января 2021

Нейросеть обучается генерировать изображения за несколько часов

Легковесная GAN — это генеративно-состязательная нейросеть, которая выучивается генерировать изображения в разрешении 1024×1024 за несколько часов на одной RTX-2080 GPU. При этом модель выдает стабильные по качеству результаты, даже если…

MPG: GAN генерирует изображения пиццы на основе лейблов

5 января 2021

MPG: GAN генерирует изображения пиццы на основе лейблов

MPG — это GAN модель для условной генерации изображений на основе нескольких лейблов. Архитектура MPG основывается на state-of-theart GAN модели StyleGAN2.  Зачем это нужно  Условная генерация изображений на основе нескольких…

End-to-end нейросеть для детектирования объектов на изображении

19 декабря 2020

End-to-end нейросеть для детектирования объектов на изображении

Исследователи из Megvii Technology и Xi’an Jiaotong University предложили архитектуру end-to-end сверточного детектора объектов, который не использует NMS. Реализация модели доступна в открытом репозитории на GitHub. NMS в прошлых моделях…

ReBeL: RL-агент от FAIR для игры в шахматы, покер и Go

19 декабря 2020

ReBeL: RL-агент от FAIR для игры в шахматы, покер и Go

Исследователи из Facebook AI разработали универсальную модель, которая играет в шахматы, покер и Go. ReBeL — это вероятностная модель, которая объединяет в себе обучение с подкреплением и поиск при поиске…

Rel3D: датасет с разметкой пространственных отношений в 3D

19 декабря 2020

Rel3D: датасет с разметкой пространственных отношений в 3D

Rel3D — это крупномасштабный датасет с разметкой пространственных отношений в 3D. Сборкой датасета занимались исследователи из University of Michigan и Princeton University. Проблема существующих датасетов Существующие датасеты с разметкой 3D отношений…

CPM: предобученная языковая модель для китайского языка

15 декабря 2020

CPM: предобученная языковая модель для китайского языка

CPM — это предобученная языковая модель для китайского языка. Модель имеет 2.6 миллиарда параметров и обучалась на 100 гигабайтах текстов на китайском. CPM позволит улучшить качество результатов для таких задач,…

RecBole: библиотека для обучения рекомендательных систем

2 декабря 2020

RecBole: библиотека для обучения рекомендательных систем

RecBole — это опенсорсная библиотека для обучения рекомендательных систем. RecBole разработан на основе Python и PyTorch для воспроизведения и разработки алгоритмов рекомендации в унифицированном формате. Библиотеку можно установить через pip,…

Deep Graph Library: библиотека для глубокого обучения на графах

2 декабря 2020

Deep Graph Library: библиотека для глубокого обучения на графах

DGL — это простая в использовании, высокопроизоводительная и масштабируемая библиотека на Python для обучения нейросетевых моделей на графах. DGL является независимой от фреймворков. Если нейросетевая модель на графах является компонентом…

Цилиндрические и асимметрические 3D-CNN для LiDAR сегментации

2 декабря 2020

Цилиндрические и асимметрические 3D-CNN для LiDAR сегментации

Исследователи предложили новый метод представления 3D облаков точек с LiDAR наряду с новым фреймворком для сегментации 3D облаков точек. Кроме традиционной вокселизации, исследователи предлагают использовать цилиндрические партиции, которые позволяют получать…

Нейросеть анимирует изображения

2 декабря 2020

Нейросеть анимирует изображения

Исследователи из University of Washington и Facebook опубликовали нейросетевую модель, которая анимирует изображения. Модель принимает на вход изображение в 2D. На выходе модель отдает короткое видео, где объекты на изображении…

Нейросеть удаляет объекты на изображении

2 декабря 2020

Нейросеть удаляет объекты на изображении

Исследователи из Tencent Lightspeed & Quantum Studios, Adobe Research, Dalian University of Technology и Johns Hopkins University предложили новый функционал ошибки для моделей, которые решают задачу дополнения пустых частей на…

Face-vid2vid: нейросеть генерирует видео говорящих голов

2 декабря 2020

Face-vid2vid: нейросеть генерирует видео говорящих голов

Исследователи из NVIDIA предлагают нейросетевой подход для генерации видеозаписей с говорящими головами людей. Модель выучивается синтезировать видеозапись с говорящей головой на основе референсного изображения с целевой персоной и видео с…

Нейросеть от DeepMind решила проблему фолдинга белка

2 декабря 2020

Нейросеть от DeepMind решила проблему фолдинга белка

AlphaFold AI System — это нейросетевая модель от DeepMind, которая решила задачу фолдинга белка в биологии. Эта задача была поставлена 50 лет назад. Разработчики AlphaFold Team в DeepMind анонсировали, что…

Использование подсказок LiDAR для распознавания объектов без учителя

2 декабря 2020

Использование подсказок LiDAR для распознавания объектов без учителя

Исследователи из опубликовали нейросетевой подход без учителя, который решает задачу распознавания объектов на изображении. Нейросеть использует данные LiDAR как вспомогательные во время обучения. Модель тестировали на датасете Waymo Open dataset.…

ACT: end-to-end распознавание объектов с помощью Transformer

2 декабря 2020

ACT: end-to-end распознавание объектов с помощью Transformer

ACT — это Transformer-модель для задачи end-to-end распознавания объектов на изображении. Она основана на DETR архитектуре, которая требует значительных вычислительных ресурсов для обучения. Результаты DETR по качеству сравнимы с двухступенчатыми…

GIF: нейросеть позволяет контролировать характеристики генерируемых изображений

2 декабря 2020

GIF: нейросеть позволяет контролировать характеристики генерируемых изображений

GIF — это нейросетевая модель для генерации лиц, которая позволяет контролировать характеристики генерируемых изображений. GIF состоит из генеративно-состязательной сети StyleGAN2, предсказания которой обусловлены отрендеренной геометрией лица из FLAME. На основе…

GAN редактирует изображения по текстовому описанию

13 ноября 2020

GAN редактирует изображения по текстовому описанию

Исследователи предлагают легковесную генеративно-состязательную сеть для редактирования изображений по текстовому описанию. Модель принимает на вход изображение и текстовое описание, в соответствии с которым необходимо модифицировать изображение. На выходе модель отдает…

MichiGAN: нейросеть редактирует прическу на изображении

13 ноября 2020

MichiGAN: нейросеть редактирует прическу на изображении

MichiGAN — это генеративно-состязательная нейросеть, которая редактирует прическу на изображении. На основе портретного снимка модель позволяет модифицировать прическу персоны по нескольким референсным снимкам. Модель дает возможность редактировать отдельное такие атрибуты…

Objectron: датасет для 3D распознавания объектов на видео

13 ноября 2020

Objectron: датасет для 3D распознавания объектов на видео

Objectron — это датасет для 3D распознавания объектов на видео. Датасет содержит 15 тысяч коротких видеоклипов, каждый из которых содержит аннотацию 3D границ объектов. Данные в датасете содержат как реальные…