Исследователи MIT-IBM Watson AI Lab показали, что GAN понимает основы композиции

Генеративные нейросети (GAN) продемонстрировали способность создавать фотореалистичные изображения. Однако неизвестно, изучают ли сети композицию или работают за счет воспроизведения пиксельных паттернов.

Компьютер может рисовать сцену двумя способами:

самостоятельно составлять композицию из изученных объектов,
запоминать изображение и воспроизводить его.

Приложение GAN Paint и метод GAN Dissection, разработанный исследователями MIT-IBM Watson AI Lab показали, что нейросети все-таки обучаются некоторым аспектам композиции:

GANpaint активирует и деактивирует наборы нейронов в глубокой сети, обученной генерации изображений. Каждая кнопка соответствует набору из 20 нейронов. Переключая нейроны напрямую, можно наблюдать структуру визуального мира, которую сеть научилась моделировать.

GAN Dissection

GAN Dissection использует сеть сегментации вместе с алгоритмом Network Dissecton, чтобы найти отдельные нейроны в генераторе, которые соответствуют классам объектов, например деревьям:

Нейроны, которые будет знать и использовать GAN, зависят от типа сцены, которую она учится рисовать. Например, при рисовании конференц-зала появляется нейрон для делового костюма, а при рисовании кухонь появляется нейрон, отвечающий за посуду.

Управление нейронами

Чтобы убедиться, что наборы нейронов управляют рисованием объектов, а не просто воспроизводят сцену, которую запомнили, исследователи вмешиваются в процесс и активируют и деактивируют нейроны напрямую.

Проведя эксперимент, учёные пришли к выводу, что одни и те же нейроны управляют определенным классом объектов во множестве контекстов, даже если конечный вид объекта сильно варьируется. Одни и те же нейроны могут нарисовать «дверь» для разных объектов:

ganpaint door — GAN Paint дорисовал дверь на всех изображениях

Точно так же нейросеть понимает, какие объекты сопоставлять нельзя. Например, включение нейронов двери на здании добавит дверь. Но то же действие на рисунке с небом или деревом, как правило, будет лишним:

Понимание того, как работают внутренние механизмы GAN поможет улучшить работу сети. Например, иногда GAN может генерировать нереалистичные изображения. Исследование показывает, что ошибки и визуальные артефакты могут быть вызваны конкретным набором нейронов. Обнаружив и удалив эти нейроны, можно добиться лучшего выходного изображения.

Попробуйте управлять нейронами в интерактивной версии приложения.