В FAIR представили TextStyleBrush — первую самообучаемую нейросеть, копирующую стиль текста на фотографии. TextStyleBrush позволяет заменить текст на изображении, используя в качестве входных данных только один пример слова.
Сложность задачи, решаемой TextStyleBrush, обусловлена не только неограниченностью количества стилей текста, но и неклассифицируемостью таких преобразований, как повороты, изгибы и деформации поверхности, на которую нанесен текст. В силу этих причин невозможно точно сегментировать текст по его фону и нецелесообразно создавать аннотированные примеры каждого возможного стиля текста для всего алфавита и цифр.
Архитектура TextStyleBrush
В отличие от предыдущих подходов, в которых определяются конкретные параметры текста, такие как шрифт, в TextStyleBrush реализован более глубокий подход к обучению, состоящий в отделении содержания текста от всех характеристик его внешнего вида и последующего переноса стиля на новый текст.
Архитектура нейросети основана на StyleGAN2, которая, однако, имеет ограничения при решении задачи копирования стиля текста. Во-первых, StyleGAN2 — это безусловная модель, то есть она генерирует изображения путем выбора случайного скрытого вектора. Однако для переноса стиля текста необходимо контролировать выходные данные на основе двух отдельных источников: целевого содержания текста и стиля. Во-вторых, стиль текста включает как крупномасштабные признаки (например, шрифт и размер), так и мелкомасштабные (например, особенности индивидуального почерка). Для обхода данных ограничений в TextStyleBrush выполняется обработка крупномасштабных признаков путем извлечения присущей каждому слою информации и ее последующей инжекции на каждом слое генератора.
В дополнение к созданию целевого изображения в желаемом стиле генератор также формирует изображение мягкой маски, которое обозначает пиксели переднего плана (области текста). За счет генератор учитывает как крупно-, так и мелкомасштабные признаки стиля. TextStyleBrush превосходит современную точность как в автоматизированных, так и в ручных текстах.