Нейросеть обучили прогнозировать рост клеток

23 июля 2021

Нейросеть обучили прогнозировать рост клеток

Ученые из Института промышленных наук Токийского университета разработали алгоритм машинного обучения, позволяющий предсказывать размер отдельной клетки по мере ее роста и деления. Нейросеть может продвинуть область количественной биологии и применяться…

BlenderBot 2.0: чат-бот FAIR с долговременной памятью

18 июля 2021

BlenderBot 2.0: чат-бот FAIR с долговременной памятью

FAIR представила вторую версию BlenderBot — open-source чат-бота, объединяющего в себе несколько разговорных навыков, включая персонифицированность, эмпатию и фактические знания. BlenderBot 2.0 обладает долговременной памятью и способностью общаться на темы,…

Искусственный интеллект позволил исследовать процесс кипения

11 июля 2021

Искусственный интеллект позволил исследовать процесс кипения

Исследователи MIT обучили нейронную сеть предсказывать кризис кипения жидкостей по изображениям с инфракрасных камер. Потенциальные приложения технологии включают автоматизацию процесса охлаждения компьютерных чипов и ядерных реакторов. Процесс кипения — превращения…

Архитектура Vision Outlooker установила рекорд точности классификации изображений без предобучения

27 июня 2021

Архитектура Vision Outlooker установила рекорд точности классификации изображений без предобучения

Vision Outlooker (VOLO) — вариация архитектуры Vision Transformer, призванная снизить зависимость от дополнительных обучающих данных. Достигнут рекордный показатель 87,1% на ImageNet без предобучения. Код в открытом доступе. Зачем это нужно…

TextStyleBrush: нейросеть FAIR копирует стиля текста на фотографии

12 июня 2021

TextStyleBrush: нейросеть FAIR копирует стиля текста на фотографии

В FAIR представили TextStyleBrush — первую самообучаемую нейросеть, копирующую стиль текста на фотографии. TextStyleBrush позволяет заменить текст на изображении, используя в качестве входных данных только один пример слова. Сложность задачи,…

FRILL: модель Google речевых представлений для мобильных устройств

11 июня 2021

FRILL: модель Google речевых представлений для мобильных устройств

Google AI представила FRILL — усовершенствованную версию модели речевых представлений TRILL, выпущенной в прошлом году. FRILL в 32 раза быстрее и занимает в 2.5 раза меньше места, чем TRILL, что…

FAIR представила самоуправляемую нейросеть для распознавания речи

28 мая 2021

FAIR представила самоуправляемую нейросеть для распознавания речи

wav2vec-U – фреймворк для создания систем распознавания речи, не требующих обучения на аннотированных датасетах. Алгоритм, представленный FAIR, дает возможность распознавания речи на редких языках и диалектах. На сегодняшний день технология…

Google Brain разработали MLP-Mixer, архитектуру компьютерного зрения на основе многослойных перцептронов

11 мая 2021

Google Brain разработали MLP-Mixer, архитектуру компьютерного зрения на основе многослойных перцептронов

MLP-Mixer — архитектура от Google Brain, которая показала высокие результаты в компьютерном зрении, используя только линейные слои. Является сопоставимой альтернативой свёрточным нейросетям и трансформерам. Код доступен на Github. Зачем это…

Архитектура Vision Transformers показала неожиданно хорошие результаты без слоёв внимания

8 мая 2021

Архитектура Vision Transformers показала неожиданно хорошие результаты без слоёв внимания

Модель Vision Transformer без слоёв внимания показала высокие результаты на ImageNet. Это показывает, что механизм внимания не является основной причиной эффективности архитектуры Vision Transformer, вопреки мнению сообщества. Зачем это нужно…

FAIR разработали архитектуру DINO для анализа изображений без лейблов

3 мая 2021

FAIR разработали архитектуру DINO для анализа изображений без лейблов

DINO — инструмент от FAIR для самообучения современных моделей Visual Transformer. Фреймворк эффективно справляется с самостоятельным выделением важного содержимого на изображениях без лейблов. Код в открытом доступе. Зачем это нужно…

Новый метод переноса стиля ArtFlow позволяет выполнять стилизацию изображений без потерь

12 апреля 2021

Новый метод переноса стиля ArtFlow позволяет выполнять стилизацию изображений без потерь

ArtFlow — это фреймворк для переноса стиля изображения без потерь с помощью обратимых нейронных потоков. Код в открытом доступе на Github. Зачем это нужно Задача универсального переноса стиля (UST) позволяет…

CSTR: нейросеть распознает текст на изображениях сцены

1 марта 2021

CSTR: нейросеть распознает текст на изображениях сцены

CSTR — это сверточная нейросеть, которая распознает текст на изображениях сцены. Превалирующая часть предыдущих работ рассматривает задачу распознавания текста на изображении сцены как задачу сегментации и seq2seq. Предложенная модель решает…

TransGAN: две Transformer модели как одна GAN

26 февраля 2021

TransGAN: две Transformer модели как одна GAN

TransGAN — GAN-модель, в которой генератор и дискриминатор состоят из двух Transformer-архитектур. Традиционно в GAN архитектуре используются свертки. В TransGAN свертки заменили на Transformer. Код проекта доступен в открытом репозитории…

SAM: нейросеть меняет возраст на изображении лица человека

17 февраля 2021

SAM: нейросеть меняет возраст на изображении лица человека

SAM — это нейросетевая модель, которая меняет возраст человека на изображении. Модель принимает на вход изображение лица человека и целевой возраст. На выходе нейросеть отдает сгенерированное изображение, где лицо целевой…

TAPAS: нейросеть ищет ответы на вопросы в табличных данных

30 января 2021

TAPAS: нейросеть ищет ответы на вопросы в табличных данных

TAPAS — это нейросетевая модель для поиска ответов на вопросы в табличных данных. Нейросеть является расширением двунаправленной Transformer-модели BERT со специальными эмбеддингами для поиска ответов. Модель разрабатывали в Google AI.…

ColTran: нейросеть раскрашивает черно-белые изображения

29 января 2021

ColTran: нейросеть раскрашивает черно-белые изображения

Colorization Transformer — это нейросетевая модель, которая окрашивает черно-белые изображения и основывается на механизме внимания. Модель принимает на вход черно-белое изображение. Процесс окрашивания проходит в три этапа. Сначала авторегрессионная Transformer-модель…

Switch Transformers: Transformer-модель с триллионом параметров

26 января 2021

Switch Transformers: Transformer-модель с триллионом параметров

Switch Transformers — это архитектура Transformer-модели с триллионом параметров. Модель разрабатывали в Google Brain. MoE модели с набором экспертов  В глубоком обучении модели обычно переиспользуют одни и те же параметры…

OpenAI опубликовали модель для генерации изображений по описанию

15 января 2021

OpenAI опубликовали модель для генерации изображений по описанию

OpenAI опубликовали нейросетевую модель для генерации изображения по текстовому описанию. Архитектура DALL-E основывается на GPT-3, Transformer генеративной модели от OpenAI. Модель принимает на вход предложение с описанием целевого изображения и…

FAIR выложили state-of-the-art модель разделения голосов на аудио

7 января 2021

FAIR выложили state-of-the-art модель разделения голосов на аудио

Исследователи из Facebook AI Research опубликовали имплементацию state-of-the-art голосовой модели, которая способна разделять до 5 голосов на аудиозаписи разговора. Прошлые методы разделения голосов на аудиозаписи были ограничены максимум двумя спикерами. Предложенная…

LambdaNetworks: новая архитектура для задач компьютерного зрения

6 января 2021

LambdaNetworks: новая архитектура для задач компьютерного зрения

LambdaNetworks — это нейросетевая архитектура, которая способна захватывать длительные зависимости между входными данными и контекстуальной информацией. Например, пиксель, окруженный другими пикселями. Итоговая архитектура LambdaNetwork требует меньше вычислительных ресурсов и является…

Нейросеть меняет фон на изображении в высоком разрешении

5 января 2021

Нейросеть меняет фон на изображении в высоком разрешении

Исследователи из University of Washington опубликовали нейросетевую модель, которая заменяет задний фон на фотографии. Модель выдает итоговые изображения со скоростью 30 кадров в секунду для разрешения 4K и 60 кадров…