CompressAI: библиотека для оценки моделей сжатия данных

13 ноября 2020

CompressAI: библиотека для оценки моделей сжатия данных

CompressAI — это опенсорсная библиотека и платформа для оценки моделей сжатия данных. Инструмент основан на фреймворке для глубокого обучения PyTorch. Задача сжатия данных состоит в том, что бы минимизировать размер…

EvoStrat: библиотека для обучения эволюционных алгоритмов

13 ноября 2020

EvoStrat: библиотека для обучения эволюционных алгоритмов

EvoStrat — это опенсорсная библиотека для обучения эволюционных алгоритмов. Библиотека предоставляет интерфейс для применения эволюционных стратегий в задачах обучения с подкреплением. Эволюционные алгоритмы Эволюционные стратегии являются подходом для решения задач…

Как аугментировать данные для задач компьютерного зрения

13 ноября 2020

Как аугментировать данные для задач компьютерного зрения

State-of-the-art архитектуры для задач компьютерного зрения, как правило, требуют значительного количества обучающих данных. Часто сбор данных и разметка являются ресурсоемким процессом, поэтому существуют методы для пополнения данных (аугментации) синтетическими примерами…

VoiceFilter-Lite: легковесная архитектура для распознавания речи

13 ноября 2020

VoiceFilter-Lite: легковесная архитектура для распознавания речи

VoiceFilter-Lite — это легковесная архитектура для распознавания речи. Это облегченная версия модели VoiceFilter. Разработкой занимались исследователи из Google AI.  В чем проблема В то время как VoiceFilter модель выдавала state-of-the-art…

Нейросеть от Google AI распознает песню на основе напевки

13 ноября 2020

Нейросеть от Google AI распознает песню на основе напевки

В Google AI обучили нейросеть, которая распознает песни на основе напевания. Нейросеть используется в сервисе Hum в Google Поиске. Сервис Hum в Google Поиске В октябре в Поиске открыли пользователям…

GAN редактирует изображения по текстовому описанию

13 ноября 2020

GAN редактирует изображения по текстовому описанию

Исследователи предлагают легковесную генеративно-состязательную сеть для редактирования изображений по текстовому описанию. Модель принимает на вход изображение и текстовое описание, в соответствии с которым необходимо модифицировать изображение. На выходе модель отдает…

Оптимизированная EfficientNet обучается за час с точностью в 83% на ImageNet

13 ноября 2020

Оптимизированная EfficientNet обучается за час с точностью в 83% на ImageNet

Исследователи из Google Research оптимизировали архитектуру EfficientNet. Оптимизированная версия обучается за час с точностью в 83% на задаче классификации изображений из ImageNet. Исследователи оптимизировали архитектуру под обучение на TPU-v3 Pods…

MichiGAN: нейросеть редактирует прическу на изображении

13 ноября 2020

MichiGAN: нейросеть редактирует прическу на изображении

MichiGAN — это генеративно-состязательная нейросеть, которая редактирует прическу на изображении. На основе портретного снимка модель позволяет модифицировать прическу персоны по нескольким референсным снимкам. Модель дает возможность редактировать отдельное такие атрибуты…

NYU Depth V2: сегментация объектов на видеозаписях интерьера

13 ноября 2020

NYU Depth V2: сегментация объектов на видеозаписях интерьера

NYU Depth V2 — это датасет для сегментации объектов на изображениях интерьера. Датасет состоит из видеопоследовательностей из разных сцен интерьера, которые были записаны в RGB и с помощью камер глубины…

Нейросеть распознает дипфейки по предсказанию сердцебиения

13 ноября 2020

Нейросеть распознает дипфейки по предсказанию сердцебиения

Исследователи из Binghampton University и Intel Corporation разработали модель, которая распознает дипфейки по предсказанному сердцебиению. Классификатор использует данные фотоплетизмограмм для распознавания фейковых видео. Важным допущением в модели является то, что…

Objectron: датасет для 3D распознавания объектов на видео

13 ноября 2020

Objectron: датасет для 3D распознавания объектов на видео

Objectron — это датасет для 3D распознавания объектов на видео. Датасет содержит 15 тысяч коротких видеоклипов, каждый из которых содержит аннотацию 3D границ объектов. Данные в датасете содержат как реальные…

Нейросеть от Google AI генерирует изображение по описанию

13 ноября 2020

Нейросеть от Google AI генерирует изображение по описанию

Группа исследователей из Google Research предложила нейросетевой метод для генерации изображений из текстов. По результатам экспериментов, модель обходит state-of-the-art подходы. На чем обучали модель Исследователи разработали последовательную нейронную сеть, которую…

Torch-Points3D: библиотека для глубокого обучения на 3D облаках точек

28 октября 2020

Torch-Points3D: библиотека для глубокого обучения на 3D облаках точек

Torch-Points3D — это опенсорсный модульный фреймворк для обучения нейросетевых моделей на 3D облаках точек. Библиотека призвана облегчить процесс обработки данных и построение пайплайнов для обучения моделей. Подробнее про библиотеку Фреймворк…

Нейросеть распознает действия на видео в реальном времени

28 октября 2020

Нейросеть распознает действия на видео в реальном времени

Исследователи из Amazon опубликовали нейросетевую модель, которая распознает действия на видеозаписях трансляций в реальном времени. Нейросеть учитывает временные лаги трансляций при выдаче предсказаний. Фреймворк состоит из двух частей: модуль с…

BAAAN: бэкдор атаки на автоэнкодеры и GAN модели

28 октября 2020

BAAAN: бэкдор атаки на автоэнкодеры и GAN модели

Исследователи из CISPA и Cyber-Defence Campus проверили автоэнкодер-модели и GAN-модели на устойчивость к бэкдор атакам. Исследователи обучили модели, для которых можно контролировать сгенерированные изображения через скрытые триггеры в входных данных.…

RxR: датасет для навигации в пространстве с помощью описаний

27 октября 2020

RxR: датасет для навигации в пространстве с помощью описаний

Room-Across-Room (RxR) — это датасет для навигации в пространстве с помощью текстовых команд. Текстовые команды в RxR представлены на трех языках: английском, хинди и телугу. Кроме того, пути в датасете…

Нейросеть разделяет голоса спикеров на аудиозаписи

27 октября 2020

Нейросеть разделяет голоса спикеров на аудиозаписи

Cone of Silence — это нейросетевая модель, которая разделяет спикеров на аудиозаписи, записанной с нескольких микрофонов. Модель выдает аудиодорожку с речью спикера и предсказывает расположение спикера относительно микрофонов. Нейросеть справляется…

mT5: предобученный мультилингвальный Transformer для 101 языков

27 октября 2020

mT5: предобученный мультилингвальный Transformer для 101 языков

mT5 — предобученный мультилингвальный Transformer для 101 языков. mT5 является расширением модели Text-to-Text Transfer Transformer (T5). Архитектуру T5 разработали исследователи из Google AI. mT5 обучался на корпусе веб-страниц из Common…

GACN: нейросеть избавляется от размытия на изображении

26 октября 2020

GACN: нейросеть избавляется от размытия на изображении

GACN — это нейросетевая модель, которая фокусирует объекты на изображении. Модель принимает на вход набор изображений одной сцены. На их основе нейросеть генерирует итоговое изображение, на котором все объекты находятся…

Нейросеть генерирует 3D-модель лица человека по селфи

26 октября 2020

Нейросеть генерирует 3D-модель лица человека по селфи

Группа исследователей из Tencent AI Labs разработали нейросеть, которая генерирует 3D-модель лица человека по селфи. Модель принимает на вход селфи человека в формате RGB-D изображений с разных ракурсов. На выходе…

GRF: нейросеть генерирует 3D вид сцены по 2D изображениям

26 октября 2020

GRF: нейросеть генерирует 3D вид сцены по 2D изображениям

GRF — это нейронная функция для представления и рендеринга 3D сцен любой сложности на основе 2D изображений. По количественным и качественным оценкам, GRF обходит state-of-the-art методы. Подробнее про архитектуру подхода…