GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

1 сентября 2023
GIGAGAN

GigaGAN: open source модель генерирует изображения размером 512px за 0,13 секунды

GigaGAN — open source модель с 1 миллиардом параметров, которая генерирует изображения размером 512×512 пикселей за 0,13 секунды, что на порядки быстрее, чем диффузные и авторегрессионные модели. Кроме того, исследователи…

AudioPaLM: мультимодальная модель от Google для голосового перевода

29 июня 2023
audiopalm google

AudioPaLM: мультимодальная модель от Google для голосового перевода

Google представила AudioPaLM — большую языковую модель для обработки и генерации речи, объединяющую две языковые модели от Google — PaLM-2 и AudioLM — в мультимодальную архитектуру. Модель умеет распознавать речь,…

MusicGen: open source нейросеть для создания музыки в любых жанрах

13 июня 2023
musicgen

MusicGen: open source нейросеть для создания музыки в любых жанрах

MusicGen — нейросеть, создающая музыку по текстовому описанию и примеру мелодии, что дает более точный контроль над создаваемым выводом. Исследователи провели обширное эмпирическое исследование, чтобы доказать превосходство предложенного подхода по…

Нейросеть генерирует изображения с примеркой одежды

14 марта 2021

Нейросеть генерирует изображения с примеркой одежды

PF-AFN — это нейросеть, которая генерирует изображения с примеркой одежды. Модель принимает на вход изображение человека и изображение предмета одежды. На выходе модель отдает изображение, на котором на целевую персону…

TransGAN: две Transformer модели как одна GAN

26 февраля 2021

TransGAN: две Transformer модели как одна GAN

TransGAN — GAN-модель, в которой генератор и дискриминатор состоят из двух Transformer-архитектур. Традиционно в GAN архитектуре используются свертки. В TransGAN свертки заменили на Transformer. Код проекта доступен в открытом репозитории…

MeInGame: нейросеть генерирует игрового персонажа по изображению лица

15 февраля 2021

MeInGame: нейросеть генерирует игрового персонажа по изображению лица

MeInGame — это нейросетевая модель, которая генерирует персонажа в игре по одному изображению лица. Нейросеть предсказывает форму лица и его текстуру. Итоговое предсказание можно внедрить в большинство существующих 3D игр.…

JigsawGAN: генеративная нейросетевая модель собирает пазлы

11 февраля 2021

JigsawGAN: генеративная нейросетевая модель собирает пазлы

JigsawGAN — это генеративная self-supervised нейросетевая модель, которую обучили на задаче сбора пазлов. Модель принимает на вход хаотично расположенные части изображения и на выходе выдает оригинальное изображение. Нейросеть не требует…