OpenAI опубликовали модель для генерации изображений по описанию

15 января 2021

OpenAI опубликовали модель для генерации изображений по описанию

OpenAI опубликовали нейросетевую модель для генерации изображения по текстовому описанию. Архитектура DALL-E основывается на GPT-3, Transformer генеративной модели от OpenAI. Модель принимает на вход предложение с описанием целевого изображения и…

FAIR выложили state-of-the-art модель разделения голосов на аудио

7 января 2021

FAIR выложили state-of-the-art модель разделения голосов на аудио

Исследователи из Facebook AI Research опубликовали имплементацию state-of-the-art голосовой модели, которая способна разделять до 5 голосов на аудиозаписи разговора. Прошлые методы разделения голосов на аудиозаписи были ограничены максимум двумя спикерами. Предложенная…

LambdaNetworks: новая архитектура для задач компьютерного зрения

6 января 2021

LambdaNetworks: новая архитектура для задач компьютерного зрения

LambdaNetworks — это нейросетевая архитектура, которая способна захватывать длительные зависимости между входными данными и контекстуальной информацией. Например, пиксель, окруженный другими пикселями. Итоговая архитектура LambdaNetwork требует меньше вычислительных ресурсов и является…

Нейросеть меняет фон на изображении в высоком разрешении

5 января 2021

Нейросеть меняет фон на изображении в высоком разрешении

Исследователи из University of Washington опубликовали нейросетевую модель, которая заменяет задний фон на фотографии. Модель выдает итоговые изображения со скоростью 30 кадров в секунду для разрешения 4K и 60 кадров…

Нейросеть генерирует динамические сцены на основе видео

3 января 2021

Нейросеть генерирует динамические сцены на основе видео

Исследователи из Cornell Tech и Adobe Research опубликовали нейросетевую модель, которая генерирует динамические сцены на основе видеозаписей. Модель принимает на вход видео, снятое с одного ракурса. На выходе модель отдает…

Нейросеть воспроизводит процесс отрисовки скетча

19 декабря 2020

Нейросеть воспроизводит процесс отрисовки скетча

Исследователи из Huawei Hisilicon предлагают новый метод для генерации скетча на основе изображения. Предложенная модель не только генерирует изображение скетча, но и восстанавливает сам процесс отрисовки. Модель обходит предыдущие подходы…

Масштабированная модель сегментации для более чем 1 тысячи классов

19 декабря 2020

Масштабированная модель сегментации для более чем 1 тысячи классов

Исследователи из Computer Vision Lab в ETH Zurich предлагают метод обучения и масштабирования существующих моделей семантической сегментации. Метод работает для датасетов с большим количеством семантических классов без увеличения нагрузок на…

Оптимизированная EfficientNet обучается за час с точностью в 83% на ImageNet

13 ноября 2020

Оптимизированная EfficientNet обучается за час с точностью в 83% на ImageNet

Исследователи из Google Research оптимизировали архитектуру EfficientNet. Оптимизированная версия обучается за час с точностью в 83% на задаче классификации изображений из ImageNet. Исследователи оптимизировали архитектуру под обучение на TPU-v3 Pods…

Нейросеть от Google AI генерирует изображение по описанию

13 ноября 2020

Нейросеть от Google AI генерирует изображение по описанию

Группа исследователей из Google Research предложила нейросетевой метод для генерации изображений из текстов. По результатам экспериментов, модель обходит state-of-the-art подходы. На чем обучали модель Исследователи разработали последовательную нейронную сеть, которую…

Нейросеть разделяет голоса спикеров на аудиозаписи

27 октября 2020

Нейросеть разделяет голоса спикеров на аудиозаписи

Cone of Silence — это нейросетевая модель, которая разделяет спикеров на аудиозаписи, записанной с нескольких микрофонов. Модель выдает аудиодорожку с речью спикера и предсказывает расположение спикера относительно микрофонов. Нейросеть справляется…

mT5: предобученный мультилингвальный Transformer для 101 языков

27 октября 2020

mT5: предобученный мультилингвальный Transformer для 101 языков

mT5 — предобученный мультилингвальный Transformer для 101 языков. mT5 является расширением модели Text-to-Text Transfer Transformer (T5). Архитектуру T5 разработали исследователи из Google AI. mT5 обучался на корпусе веб-страниц из Common…

M2M-100: state-of-the-art мультилингвальная модель для перевода

26 октября 2020

M2M-100: state-of-the-art мультилингвальная модель для перевода

M2M-100 — это первая мультилингвальная модель машинного перевода, которая переводит на 100 языков и не задействует данные на английском языке при обучении. Разработчики опубликовали модель, пайплайн обучения и сетап оценки…

В Google Brain обучили Transformer для задач компьютерного зрения

24 октября 2020

В Google Brain обучили Transformer для задач компьютерного зрения

В Google Brain обучили Transformer-модель для задачи распознавания изображений. На датасетах ImageNet, CIFAR-100 и VTAB ViT (Vision Transformer) выдает результаты, сравнимые с state-of-the-art сверточными архитектурами. При этом ViT требует меньшего…

В FAIR глубокое обучение используют для МРТ сканирования

16 октября 2020

В FAIR глубокое обучение используют для МРТ сканирования

Группа исследователей из Facebook AI Research и McGill University опубликовали state-of-the-art метод для активного сбора МРТ снимков, который использует обучение с подкреплением. По результатам экспериментов, предложенный подход обходит предыдущие state-of-the-art…

Nvidia опубликовали обновленную реализацию StyleGAN2

12 октября 2020

Nvidia опубликовали обновленную реализацию StyleGAN2

Nvidia опубликовали обновленную реализацию StyleGAN2. Обновленная StyleGAN2 выдает результаты, сравнимые с оригинальной StyleGAN2. При этом модель не требует более пары тысяч изображений для обучения, что на порядок меньше требуемого размера…

3DDFA: нейросеть размечает лицо человека в 3D по видеозаписи

29 сентября 2020

3DDFA: нейросеть размечает лицо человека в 3D по видеозаписи

3DDFA — это нейросеть, которая размечает лицо человека в 3D по видеозаписи. Реализация модели написана на PyTorch и доступна в открытом репозитории на GitHub. Репозиторий содержит код проекта, предобученные MobileNet-V1…

MEAL V2: способ улучшить точность классификации ResNet-50 до 80%+ на ImageNet

26 сентября 2020

MEAL V2: способ улучшить точность классификации ResNet-50 до 80%+ на ImageNet

MEAL V2 — это способ улучшить точность классификации стандартной ResNet-50 до 80%+ на датасете ImageNet без изменений в архитектуре. Код и модели доступны в открытом репозитории на GitHub. Подробнее про…

GPT-f: нейросеть генерирует доказательства теорем

14 сентября 2020

GPT-f: нейросеть генерирует доказательства теорем

GPT-f — это языковая модель, которую обучили генерировать доказательства теорем. В качестве архитектуры использовали transformer-модель GPT-3. GPT-f призван ассистировать математикам при доказательстве теорем. Модель работает для формального языка для доказательства…

Нейросеть адаптирует видео с говорящим лицо под аудиозапись речи

1 сентября 2020

Нейросеть адаптирует видео с говорящим лицо под аудиозапись речи

Wav2Lip — это нейросеть, которая адаптирует видео с говорящим лицо под аудиозапись речи. Предложенная нейросеть обходит state-of-the-art подходы на задаче синхронизации губ человека на видеозаписи с аудидорожкой. Ограничения прошлых подходов…

PEGASUS: Transformer для предобучения на задаче суммаризации

29 августа 2020

PEGASUS: Transformer для предобучения на задаче суммаризации

PEGASUS — это метод предобучения для задачи абстрактивной суммаризации. Базовая архитектура PEGASUS состоит из Transformer-модели с энкодером и декодером. Во время обучения модель оптимизирует два функционала ошибки: GSG и MLM.…

SipMask: новый state-of-the-art в instance сегментации

4 августа 2020

SipMask: новый state-of-the-art в instance сегментации

SipMask — это одноступенчатая нейросеть для instance сегментации объектов на изображении. Модель обходит предыдущие одноступенчатые state-of-the-art подходы на датасете COCO test-dev. В сравнении с TensorMask, SipMask дает прирост AP в…