Новый метод переноса стиля ArtFlow позволяет выполнять стилизацию изображений без потерь

12 апреля 2021

Новый метод переноса стиля ArtFlow позволяет выполнять стилизацию изображений без потерь

ArtFlow — это фреймворк для переноса стиля изображения без потерь с помощью обратимых нейронных потоков. Код в открытом доступе на Github. Зачем это нужно Задача универсального переноса стиля (UST) позволяет…

CSTR: нейросеть распознает текст на изображениях сцены

1 марта 2021

CSTR: нейросеть распознает текст на изображениях сцены

CSTR — это сверточная нейросеть, которая распознает текст на изображениях сцены. Превалирующая часть предыдущих работ рассматривает задачу распознавания текста на изображении сцены как задачу сегментации и seq2seq. Предложенная модель решает…

TransGAN: две Transformer модели как одна GAN

26 февраля 2021

TransGAN: две Transformer модели как одна GAN

TransGAN — GAN-модель, в которой генератор и дискриминатор состоят из двух Transformer-архитектур. Традиционно в GAN архитектуре используются свертки. В TransGAN свертки заменили на Transformer. Код проекта доступен в открытом репозитории…

SAM: нейросеть меняет возраст на изображении лица человека

17 февраля 2021

SAM: нейросеть меняет возраст на изображении лица человека

SAM — это нейросетевая модель, которая меняет возраст человека на изображении. Модель принимает на вход изображение лица человека и целевой возраст. На выходе нейросеть отдает сгенерированное изображение, где лицо целевой…

TAPAS: нейросеть ищет ответы на вопросы в табличных данных

30 января 2021

TAPAS: нейросеть ищет ответы на вопросы в табличных данных

TAPAS — это нейросетевая модель для поиска ответов на вопросы в табличных данных. Нейросеть является расширением двунаправленной Transformer-модели BERT со специальными эмбеддингами для поиска ответов. Модель разрабатывали в Google AI.…

ColTran: нейросеть раскрашивает черно-белые изображения

29 января 2021

ColTran: нейросеть раскрашивает черно-белые изображения

Colorization Transformer — это нейросетевая модель, которая окрашивает черно-белые изображения и основывается на механизме внимания. Модель принимает на вход черно-белое изображение. Процесс окрашивания проходит в три этапа. Сначала авторегрессионная Transformer-модель…

Switch Transformers: Transformer-модель с триллионом параметров

26 января 2021

Switch Transformers: Transformer-модель с триллионом параметров

Switch Transformers — это архитектура Transformer-модели с триллионом параметров. Модель разрабатывали в Google Brain. MoE модели с набором экспертов  В глубоком обучении модели обычно переиспользуют одни и те же параметры…

OpenAI опубликовали модель для генерации изображений по описанию

15 января 2021

OpenAI опубликовали модель для генерации изображений по описанию

OpenAI опубликовали нейросетевую модель для генерации изображения по текстовому описанию. Архитектура DALL-E основывается на GPT-3, Transformer генеративной модели от OpenAI. Модель принимает на вход предложение с описанием целевого изображения и…

FAIR выложили state-of-the-art модель разделения голосов на аудио

7 января 2021

FAIR выложили state-of-the-art модель разделения голосов на аудио

Исследователи из Facebook AI Research опубликовали имплементацию state-of-the-art голосовой модели, которая способна разделять до 5 голосов на аудиозаписи разговора. Прошлые методы разделения голосов на аудиозаписи были ограничены максимум двумя спикерами. Предложенная…

LambdaNetworks: новая архитектура для задач компьютерного зрения

6 января 2021

LambdaNetworks: новая архитектура для задач компьютерного зрения

LambdaNetworks — это нейросетевая архитектура, которая способна захватывать длительные зависимости между входными данными и контекстуальной информацией. Например, пиксель, окруженный другими пикселями. Итоговая архитектура LambdaNetwork требует меньше вычислительных ресурсов и является…

Нейросеть меняет фон на изображении в высоком разрешении

5 января 2021

Нейросеть меняет фон на изображении в высоком разрешении

Исследователи из University of Washington опубликовали нейросетевую модель, которая заменяет задний фон на фотографии. Модель выдает итоговые изображения со скоростью 30 кадров в секунду для разрешения 4K и 60 кадров…

Нейросеть генерирует динамические сцены на основе видео

3 января 2021

Нейросеть генерирует динамические сцены на основе видео

Исследователи из Cornell Tech и Adobe Research опубликовали нейросетевую модель, которая генерирует динамические сцены на основе видеозаписей. Модель принимает на вход видео, снятое с одного ракурса. На выходе модель отдает…

Нейросеть воспроизводит процесс отрисовки скетча

19 декабря 2020

Нейросеть воспроизводит процесс отрисовки скетча

Исследователи из Huawei Hisilicon предлагают новый метод для генерации скетча на основе изображения. Предложенная модель не только генерирует изображение скетча, но и восстанавливает сам процесс отрисовки. Модель обходит предыдущие подходы…

Масштабированная модель сегментации для более чем 1 тысячи классов

19 декабря 2020

Масштабированная модель сегментации для более чем 1 тысячи классов

Исследователи из Computer Vision Lab в ETH Zurich предлагают метод обучения и масштабирования существующих моделей семантической сегментации. Метод работает для датасетов с большим количеством семантических классов без увеличения нагрузок на…

Оптимизированная EfficientNet обучается за час с точностью в 83% на ImageNet

13 ноября 2020

Оптимизированная EfficientNet обучается за час с точностью в 83% на ImageNet

Исследователи из Google Research оптимизировали архитектуру EfficientNet. Оптимизированная версия обучается за час с точностью в 83% на задаче классификации изображений из ImageNet. Исследователи оптимизировали архитектуру под обучение на TPU-v3 Pods…

Нейросеть от Google AI генерирует изображение по описанию

13 ноября 2020

Нейросеть от Google AI генерирует изображение по описанию

Группа исследователей из Google Research предложила нейросетевой метод для генерации изображений из текстов. По результатам экспериментов, модель обходит state-of-the-art подходы. На чем обучали модель Исследователи разработали последовательную нейронную сеть, которую…

Нейросеть разделяет голоса спикеров на аудиозаписи

27 октября 2020

Нейросеть разделяет голоса спикеров на аудиозаписи

Cone of Silence — это нейросетевая модель, которая разделяет спикеров на аудиозаписи, записанной с нескольких микрофонов. Модель выдает аудиодорожку с речью спикера и предсказывает расположение спикера относительно микрофонов. Нейросеть справляется…

mT5: предобученный мультилингвальный Transformer для 101 языков

27 октября 2020

mT5: предобученный мультилингвальный Transformer для 101 языков

mT5 — предобученный мультилингвальный Transformer для 101 языков. mT5 является расширением модели Text-to-Text Transfer Transformer (T5). Архитектуру T5 разработали исследователи из Google AI. mT5 обучался на корпусе веб-страниц из Common…

M2M-100: state-of-the-art мультилингвальная модель для перевода

26 октября 2020

M2M-100: state-of-the-art мультилингвальная модель для перевода

M2M-100 — это первая мультилингвальная модель машинного перевода, которая переводит на 100 языков и не задействует данные на английском языке при обучении. Разработчики опубликовали модель, пайплайн обучения и сетап оценки…

В Google Brain обучили Transformer для задач компьютерного зрения

24 октября 2020

В Google Brain обучили Transformer для задач компьютерного зрения

В Google Brain обучили Transformer-модель для задачи распознавания изображений. На датасетах ImageNet, CIFAR-100 и VTAB ViT (Vision Transformer) выдает результаты, сравнимые с state-of-the-art сверточными архитектурами. При этом ViT требует меньшего…

В FAIR глубокое обучение используют для МРТ сканирования

16 октября 2020

В FAIR глубокое обучение используют для МРТ сканирования

Группа исследователей из Facebook AI Research и McGill University опубликовали state-of-the-art метод для активного сбора МРТ снимков, который использует обучение с подкреплением. По результатам экспериментов, предложенный подход обходит предыдущие state-of-the-art…