JigsawGAN: генеративная нейросетевая модель собирает пазлы

JigsawGAN — это генеративная self-supervised нейросетевая модель, которую обучили на задаче сбора пазлов. Модель принимает на вход хаотично расположенные части изображения и на выходе выдает оригинальное изображение. Нейросеть не требует дополнительной информации об изображении для поиска решения.

JigsawGAN обходит альтернативные подходы по количественным и качественным метрикам.

Предыдущие подходы для решения пазлов

Задача сбора пазла предполагает, что изображение разрезали на равные части квадратной формы. Модель должна восстановить изображение на основе информации из частей. Стандартные алгоритмы для решения пазлов используют информацию о границах частей для поиска решения. При этом такие решения игнорируют семантическую информацию, которая хранится в частях изображения. JigsawGAN решает это ограничение и использует семантическую информацию при поиске решения.

Подробнее про архитектуру JigsawGAN

Исследователи разработали мультизадачный пайплайн, который включает в себя два этапа:

Классификация перестановок пазла;
GAN-модель, которая восстанавливает признаки для изображений в правильном порядке

Модель классификации ограничена искусственно сгенерированными лейблами, которые соответствуют перемешанным частям пазла. GAN извлекает из частей изображения семантические признаки.

GAN

Предыдущие подходы для решения пазлов

Подробнее про архитектуру JigsawGAN

Читайте также