MEAL V2: способ улучшить точность классификации ResNet-50 до 80%+ на ImageNet

26 сентября 2020

MEAL V2: способ улучшить точность классификации ResNet-50 до 80%+ на ImageNet

MEAL V2 — это способ улучшить точность классификации стандартной ResNet-50 до 80%+ на датасете ImageNet без изменений в архитектуре. Код и модели доступны в открытом репозитории на GitHub. Подробнее про…

GPT-f: нейросеть генерирует доказательства теорем

14 сентября 2020

GPT-f: нейросеть генерирует доказательства теорем

GPT-f — это языковая модель, которую обучили генерировать доказательства теорем. В качестве архитектуры использовали transformer-модель GPT-3. GPT-f призван ассистировать математикам при доказательстве теорем. Модель работает для формального языка для доказательства…

Нейросеть адаптирует видео с говорящим лицо под аудиозапись речи

1 сентября 2020

Нейросеть адаптирует видео с говорящим лицо под аудиозапись речи

Wav2Lip — это нейросеть, которая адаптирует видео с говорящим лицо под аудиозапись речи. Предложенная нейросеть обходит state-of-the-art подходы на задаче синхронизации губ человека на видеозаписи с аудидорожкой. Ограничения прошлых подходов…

PEGASUS: Transformer для предобучения на задаче суммаризации

29 августа 2020

PEGASUS: Transformer для предобучения на задаче суммаризации

PEGASUS — это метод предобучения для задачи абстрактивной суммаризации. Базовая архитектура PEGASUS состоит из Transformer-модели с энкодером и декодером. Во время обучения модель оптимизирует два функционала ошибки: GSG и MLM.…

SipMask: новый state-of-the-art в instance сегментации

4 августа 2020

SipMask: новый state-of-the-art в instance сегментации

SipMask — это одноступенчатая нейросеть для instance сегментации объектов на изображении. Модель обходит предыдущие одноступенчатые state-of-the-art подходы на датасете COCO test-dev. В сравнении с TensorMask, SipMask дает прирост AP в…

CFBI: коллаборативная сегментация объектов на видеозаписи

2 августа 2020

CFBI: коллаборативная сегментация объектов на видеозаписи

CFBI — это нейросеть, которая сегментирует объекты на заднем и переднем планах в видеозаписи. Нейросеть обучалась частично с привлечением размеченных данных (semi-supervised). CFBI отличается от предыдущих подходов тем, что модель…

TransCoder: нейросеть переводит код программы на другой язык

28 июля 2020

TransCoder: нейросеть переводит код программы на другой язык

TransCoder — это нейросеть, которая переводит код программы с одного языка на другой. Модель не нуждается в размеченных параллельных данных для обучения. На данный момент TransCoder успешно переносит функции на…

Нейросеть переводит запросы на естественном языке в SQL-запросы

4 июля 2020

Нейросеть переводит запросы на естественном языке в SQL-запросы

TaBERT — это нейросеть, которая переводит запросы данных с естественного языка на SQL. В основе модели лежит трансформер-архитектура BERT, которая является state-of-the-art в обработке естественного языка.  TaBERT предобучили на задаче…

FAIR обучили новый state-of-the-art в обработке видеозаписей

29 июня 2020

FAIR обучили новый state-of-the-art в обработке видеозаписей

FAIR опубликовали нейросетевой фреймоворк для распознавания содержимого видеозаписи. Generalized Data Transformations обучается без размеченных данных. Предложенный подход обходит state-of-the-art на датасетах HMDB-51 и UCF-101 в задачах видео и аудио классификации…

PULSE: нейросеть депикселизирует фото лица человека

27 июня 2020

PULSE: нейросеть депикселизирует фото лица человека

PULSE — это нейросетевая модель, которая генерирует изображение в высоком разрешении из изображения в низком разрешении. Предложенная модель обучается self-supervised и генерирует изображения в беспрецедентно высоком разрешении. Описание проблемы Задача…

Нейросеть от FAIR восстанавливает 3D модель человека

17 июня 2020

Нейросеть от FAIR восстанавливает 3D модель человека

PIFuHD — это нейросетевая архитектура для восстановления 3D модели человека из 2D изображения. Подход обходит существующие модели по реалистичности генерируемых 3D моделей. Разработкой модели занимались исследователи из Facebook AI. PIFuHD…

YOLOv5: state-of-the-art модель для распознавания объектов

11 июня 2020

YOLOv5: state-of-the-art модель для распознавания объектов

YOLOv5 — обновленная версия YOLO, state-of-the-art модели для распознавания объектов в реальном времени. YOLOv5 выдает предсказания со скоростью 140 кадров в секунду. Эволюция YOLO моделей YOLO (You Only Look Once)…

f-BRS: интерактивная сегментация объектов на изображении

2 июня 2020

f-BRS: интерактивная сегментация объектов на изображении

Samsung AI опубликовали схему обучения модели для интерактивной сегментации. Пользователь указывает курсором на объект, а модель выдает предсказания границ объекта.  В чем проблема Ограничение существующих подходов в том, что они…

OpenAI обучили языковую модель с 175 миллиардами параметров

2 июня 2020

OpenAI обучили языковую модель с 175 миллиардами параметров

OpenAI обучили GPT-3, авторегрессионную языковую модель с 175 миллиардами параметров. Размер модели в 10 раз превышает размер предыдущей самой крупной языковой модели. Исследователи протестировали GPT-3 для few-shot обучения. Модель способна…

EfficientPS: state-of-the-art модель для паноптической сегментации

27 мая 2020

EfficientPS: state-of-the-art модель для паноптической сегментации

EfficientPS — это нейросетевая модель для паноптической сегментации объектов на изображении. На данный момент модель обходит state-of-the-art подходы на датасетах Cityscapes, KITTI, Mapillary Vistas и IDD. Паноптическая сегментация Одним из…

Нейросеть раскрашивает черно-белые изображения

25 мая 2020

Нейросеть раскрашивает черно-белые изображения

Восстановление цвета на изображении — это одна из открытых задач в компьютерном зрении. Исследователи из National Tsing Hua University и Virginia Tech обучили модель, которая учитывает распознанные instance-маски объектов при…

Модель распознаёт действия на видеозаписи без учителя

11 мая 2020

Модель распознаёт действия на видеозаписи без учителя

Исследователи из DeepMind обучили генеративную модель, которая сегментирует действия на видеозаписи. Модель обучается распознавать действия без реальной разметки действий на видеозаписи. Несмотря на свою простоту, алгоритм выдает сравнимые с state-of-the-art…

Facebook AI опубликовали самого крупного чатбота

1 мая 2020

Facebook AI опубликовали самого крупного чатбота

В FAIR опубликовали самого крупного чатбота, который поддерживает разговор на любые темы. По результатам опроса, Blender обходит предыдущих опенсорсных чатботов по вовлеченности и человечности. Blender является первым чатботом, которые совмещает…

12-в-1: одна нейросеть решает 12 задач на стыке компьютерного зрения и NLP

27 апреля 2020

12-в-1: одна нейросеть решает 12 задач на стыке компьютерного зрения и NLP

Большая часть исследований на стыке компьютерного зрения и NLP фокусируется на наборе небольших задач, которые изучаются по отдельности. Однако навыки обработки визуальной и текстовой информации для решения разных задач значительно…

Генеративная нейросеть меняет задний фон на изображении

18 апреля 2020

Генеративная нейросеть меняет задний фон на изображении

Исследователи из University of Washington опубликовали модель, которая подменяет задний фон на изображении. Алгоритм обходит state-of-the-art подходы. Примерами применений модели является съемка видео или смена заднего фона во время видео-звонков.…

RL-агент от DeepMind обошел человека во всех 57 играх Atari 2600

1 апреля 2020

RL-агент от DeepMind обошел человека во всех 57 играх Atari 2600

DeepMind разработали RL-агента Agent57, который обошел человека во всех 57 играх Atari 2600. Agent57 совмещает в себе алгоритм для эффективного исследования среды с мета-контроллером. Мета-контроллер отвечает за адаптацию исследования среды…