Soft-IntroVAE: генерация стабильных и реалистичных изображений

Soft-IntroVAE — это улучшенная версия глубокого вариационного автоэнкодера IntroVAE. Soft-IntroVAE генерирует более стабильные и реалистичные изображения в сравнении с IntroVAE. Модель предложили исследователи из университета Technion. Кроме повышения стабильности автоэнкодера, исследователи предложили метод теоретического анализа генеративной модели. Ключевым отличием модели является то, что в процессе обучения модель сама оценивает качество сгенерированных изображений. На основе этой оценки модель повышает свою предсказательную способность.

Подробнее про отличие Soft-IntroVAE от IntroVAE

Особенностью IntroVAE архитектуры являлось то, что она обучалась в состязательной манере. В модели использовалась hinge loss целевая функций, которая основывалась на состязательных целевых функциях из энкодера и декодера. В Soft-IntroVAE целевая функция была модифицирована. Исследователи использовали экспоненциальную функцию потерь.

По результатам экспериментов, Soft-IntroVAE обходит IntroVAE по стабильности генерируемых изображений. При этом качество изображений остается высоким. Модели тестировали на датасетах CIFAR-10, CelebA-HQ, FFHQ и других.

Детали архитектуры модели и тестирования доступны в оригинальной статье. Исследователи также опубликовали PyTorch имплементацию Soft-IntroVAE в репозитории на GitHub.