GANILLA: нейросеть генерирует иллюстрации из изображений

GANILLA — это архитектура генеративно-состязательной нейросети для перевода изображения в иллюстрацию. Исследователи предложили метрики для количественной оценки моделей на задаче перевода изображения в изображение. По результатам экспериментов, GANILLA обходит state-of-the-art подходы на задаче генерации иллюстрации из изображения. Код проекта доступен в репозитории на GitHub.

Исследователи использовали разрозненные данные из двух предметных областей для обучения модели: реальные изображения и иллюстрации. Датасет состоял из 9448 иллюстрации из 363 книг от 24 иллюстраторов и 5402 натуральных изображений из датасета CycleGAN.

Чтобы обучить модель балансировать между стилем и содержанием изображения, исследователи внесли две правки в существующие state-of-the-art подходы:

Предложили новую архитектуру генератора, которая снижает размерность карты признаков на каждом остаточном слое;
Чтобы лучше переносить содержание из входного изображения, они предложили объединять низкоуровневые признаки с высокоуровневыми с помощью скип-связей и апсемплинга

Обычно низкоуровневые признаки содержат информацию о границах входного изображения.

Архитектура модели

Генератор модели состоит из двух этапов:

Этап понижения размерности (даунсемплинг), в основе которого лежит модифицированная ResNet-18;
Этап повышения размерности (апсемплинг), когда низкоуровневые признаки через skip-связи используются для сохранения контента из входного изображения

Сеть дискриминатора — это PatchGAN размером 70 × 70.

Оценка работы модели

Чтобы оценить работу модели, исследователи сравнили ее с state-of-the-art подходами на датасете. Модель сравнивали с CartoonGAN, CycleGAN и DualGAN. Ниже видно, что, по результатам опроса, GANILLA генерирует изображения сравнимые или лучше, чем текущий state-of-the-art.