EfficientPS: state-of-the-art модель для паноптической сегментации

27 мая 2020

EfficientPS: state-of-the-art модель для паноптической сегментации

EfficientPS — это нейросетевая модель для паноптической сегментации объектов на изображении. На данный момент модель обходит state-of-the-art подходы на датасетах Cityscapes, KITTI, Mapillary Vistas и IDD. Паноптическая сегментация Одним из…

Нейросеть раскрашивает черно-белые изображения

25 мая 2020

Нейросеть раскрашивает черно-белые изображения

Восстановление цвета на изображении — это одна из открытых задач в компьютерном зрении. Исследователи из National Tsing Hua University и Virginia Tech обучили модель, которая учитывает распознанные instance-маски объектов при…

BiT: подход для обучения представлений изображений

23 мая 2020

BiT: подход для обучения представлений изображений

Big Transfer — это подход для предобучения представлений изображений. Предобученную модель затем можно использовать для дообучения на собственной задаче. Такой формат обучения называется transfer learning. Использование transfer learning оправдано, в…

DeepFaceLab: инструмент для генерации дипфейков

23 мая 2020

DeepFaceLab: инструмент для генерации дипфейков

DeepFaceLab — это опенсорсная система для создания дипфейков. Репозиторий проекта имеет 3 тысячи форков и 14 тысяч звезд на GitHub. Система рассчитана одновременно на пользователей без знаний о фреймворках глубокого…

Hateful Memes: контест по распознаванию оскорбительных мемов от FAIR

23 мая 2020

Hateful Memes: контест по распознаванию оскорбительных мемов от FAIR

Hateful Memes датасет состоит более чем из 10 тысяч примеров оскорбительных мемов. Разработкой датасета занимались исследователи из Facebook AI. FAIR лицензировали изображения из Getty Images, чтобы исследователи могли использовать датасет…

IntelliCode Compose: нейросеть дополняет код с помощью Transformer

23 мая 2020

IntelliCode Compose: нейросеть дополняет код с помощью Transformer

IntelliCode Compose — это инструмент для мультиязычного дополнения кода от Microsoft. Система предсказывает синтаксически корректную последовательность токенов кода по контексту предыдущих строчек. Модель обучали на 1.2 миллиардах строчек кода. В…

Nlp: библиотека для задач обработки естественного языка

22 мая 2020

Nlp: библиотека для задач обработки естественного языка

Исследователи из HuggingFace опубликовали библиотеку nlp с метриками и датасетами для задач обработки естественного языка. Библиотека позволяет работать с NLP-задачами в NumPy, Pandas, PyTorch и TensorFlow. Подробнее про nlp Nlp…

Facebook опубликовали среду для обучения RL-агентов

14 мая 2020

Facebook опубликовали среду для обучения RL-агентов

Facebook опубликовали среду для обучения RL-агентов на основе игры NetHack.  NetHack — это игра в терминале, которая схожа с Minecraft. Среда NetHack Learning Environment (NLE) использует версию 3.6.6 игры. NLE…

Модель распознаёт действия на видеозаписи без учителя

11 мая 2020

Модель распознаёт действия на видеозаписи без учителя

Исследователи из DeepMind обучили генеративную модель, которая сегментирует действия на видеозаписи. Модель обучается распознавать действия без реальной разметки действий на видеозаписи. Несмотря на свою простоту, алгоритм выдает сравнимые с state-of-the-art…

Нейросеть восстанавливает 3D-модель человека из видеозаписи

9 мая 2020

Нейросеть восстанавливает 3D-модель человека из видеозаписи

Предыдущие методы для детализированной оценки глубины человека по видеозаписи часто требуют размеченные тренировочные данные. Исследователи представляют self-supervised метод, который обучается на YouTube без разметки глубины. Это упрощает процесс сбора данных…

SLaQ: модель для векторного представления графов

8 мая 2020

SLaQ: модель для векторного представления графов

Исследователи из Google AI предлагают метод для широкомасштабного представления графов в виде векторов. Понимание различий и схожестей между комплексными датасетами — это один из актуальных вопросов в работе с данными.…

SCITLDR: датасет для суммаризации научных статей

7 мая 2020

SCITLDR: датасет для суммаризации научных статей

В AllenAI предложили новую задачу по автоматической генерации кратких выдержек из научных статей. Чтобы облегчить исследования на эту тему, исследователи опубликовали датасет SCITLDR. Датасет содержит 3.9 тысячи выдержки. Для каждой…

Нейросеть учится классифицировать объекты, как ребенок

7 мая 2020

Нейросеть учится классифицировать объекты, как ребенок

Исследователи из CMU предложили новый метод обучения ML-классификаторов, который схож с тем, как родители обучают детей. Модель сначала учится различать более общие классы объектов. Например, кошек от собак. Затем дообучается…

Mapillary опубликовали датасет для распознавания мест

6 мая 2020

Mapillary опубликовали датасет для распознавания мест

Mapillary Street-level Sequences Dataset (MSLS) — это самый крупный датасет с изображениями для предсказания мест. Датасет содержит 1.6 миллионов изображений, для каждого из которых доступны метаданные местности. Изображения мест снимали…

Нейросеть предсказывает глубину сцены на видеозаписи

2 мая 2020

Нейросеть предсказывает глубину сцены на видеозаписи

Исследователи из Virginia Tech и Facebook разработали нейросеть, которая предсказывает глубину кадров видеозаписи. Одним из применений является использование предсказаний нейросети для добавления спецэффектов к видеозаписи. По результатам экспериментов, предложенный подход…

Jukebox: нейросеть от OpenAI генерирует песни

1 мая 2020

Jukebox: нейросеть от OpenAI генерирует песни

Jukebox — это нейросетевая модель от OpenAI, которая генерирует песни. Модель принимает на вход жанр, артиста и текст песни. На выходе нейросеть отдает аудиозапись с сгенерированной песней. Примеры сгенерированных аудио…

Facebook AI опубликовали самого крупного чатбота

1 мая 2020

Facebook AI опубликовали самого крупного чатбота

В FAIR опубликовали самого крупного чатбота, который поддерживает разговор на любые темы. По результатам опроса, Blender обходит предыдущих опенсорсных чатботов по вовлеченности и человечности. Blender является первым чатботом, которые совмещает…

TAPAS: поиск ответа на вопрос в табличных данных с помощью BERT

30 апреля 2020

TAPAS: поиск ответа на вопрос в табличных данных с помощью BERT

TAPAS — это инструмент для поиска ответа на вопрос в табличных данных. В основе системы лежит архитектура BERT. Модель кодирует вопрос на естественном языке совместно с структурой табличных данных. На…

NBDT: интерпретируемая нейросеть на основе решающих деревьев

30 апреля 2020

NBDT: интерпретируемая нейросеть на основе решающих деревьев

Исследователи из UC Berkley предлагают интерпретируемую нейросеть, которая основана на архитектуре решающих деревьев и выдает сравнимые с state-of-the-art предсказания. Код проекта и предобученные модели доступны в открытом репозитории на GitHub.…

Как обучать модель с несколькими функциями потерь одновременно

30 апреля 2020

Как обучать модель с несколькими функциями потерь одновременно

Исследователи из Google AI предложили метод для обучения модели на множестве функций потерь одновременно. Loss-conditional обучение помогает при отборе оптимального распределения коэффициентов в функции потерь. В части задач машинного обучения…

ALAE: автоэнкодер генерирует изображения наравне с GAN

30 апреля 2020

ALAE: автоэнкодер генерирует изображения наравне с GAN

Adversarial Latent Autoencoder (ALAE) — это нейросетевая модель для генерации изображений. В основе ALAE лежит архитектура автоэнкодера. ALAE учитывает последние улучшения по обучению GAN. Исследователи разработали два автоэнкодера: один с…