Разнообразие видов вокруг — это результат взаимодействий между освещением, формами и материалами. Появление свёрточных нейронных сетей привело к прогрессу в распознавании 3D-формы объекта по одному 2D-изображению. Однако оценка материала не получила достаточного внимания, и существенного прогресса достичь не удается, что может быть связано с несколькими причинами.
Во-первых, свойства материалов бывают сложными. Даже если не брать в расчёт глобальные эффекты освещения, материалы представлены пространственной функцией двунаправленного распределения отражения (SVBRDF — spatially-varying bidirectional reflectance distribution function), неизвестной многомерной функцией, зависящей от направления падающего света. Во-вторых, при изучение пикселей, исследователи получают информацию не только о материале, но и о форме и освещении, что делает оценку некорректной.
Исследователи из Adobe разработали state-of-the-art технику для восстановления SVBRDF по одному изображению близкой к плоской поверхности, полученному с помощью камеры мобильного телефона, что не требует сложного оборудования и затрат. Свёрточные нейронные сети специально разработаны для учета физической формы BRDF и взаимодействия света с материалами.
Как это работает
Нейросеть кодирует исходное изображение в скрытое представление, которое раскладывается на компоненты, соответствующие нормали к поверхности, диффузной текстуре и зеркальной шероховатости. Эксперименты показывают превосходство этого метода над более ранними работами в количественном и качественном сравнении. Обобщающая способность этой сети, обученной на искусственном датасете BRDF, показывает хорошие результаты на реальных изображениях, полученных как в помещении, так и на улице с использованием камер на смартфонах.
Авторы предложили следующие нововведения:
- Новый легкий метод получения SVBRDF, который показывает высочайшее на сегодня качество восстановления;
- Архитектуру CNN, которая использует предметные знания для восстановления SVBRDF и распознавания материала
- DCRF постобработку, применяющую модель BRDF для уточнения результатов сети
- Разноплановый набор данных SVBRDF, который специально приспособлен к оценке BRDF.
Целью было восстановление функции двунаправленного распределения отражения практически плоской поверхности по одному изображению, снятому на мобильный телефон со включенной для освещения вспышкой. Допускается, что ось z камеры примерно перпендикулярна плоскости поверхности (эксперименты проводятся с учётом этого предположения). У большинства мобильных устройств положение вспышки близко к положению камеры, что даёт одномерную выборку изотропной BDRF. Внешний вид нашей поверхности представлен параметрической моделью микрограней. Пусть di, ni, ri это диффузный цвет, нормаль и шероховатость, соответственно, в пикселе i. Модель BDFR тогда будет определяться как:
Где vi и li — направления обзора и света, а hi — вектор половинного угла. Исследователи хотят восстановить параметры di, ni и ri для каждого пикселя i изображения, имея наблюдаемое изображение I (di, ni, ri, L), сделанное с неизвестным освещением L.
Набор данных: Использовался датасет Adobe Stock 3D Material, содержащий 688 материалов с SVBRDF в высоком разрешении (4096 x 4096). Исследователи использовали 588 материалов для обучения и 100 для тестирования. Для расширения данных авторы случайным образом нарезали по 12, 8, 4, 2, 1 изображений размером size 512, 1024, 2048, 3072, 4096 пикселей, соответственно. Распределение показано на рисунке 2.
Архитектура сети
Архитектура основной сети состоит из одного кодера и трех декодеров, которые восстанавливают три параметра BRDF: диффузный цвет di, нормаль ni и шероховатость ri. Идея, стоящая за использованием единственного кодера, состоит в том, что параметры BRDF коррелируют друг с другом, а следовательно, информация, полученная для одного, должна быть полезна для вывода других. Это позволило уменьшить размер сети.
На вход в сеть подаётся RGB изображение, дополненное координатами пикселей в качестве четвёртого канала. Добавлены координаты пикселей, так как распределение интенсивности света тесно связано с их расположением, например, центр изображения обычно намного ярче. Поскольку CNN пространственно-инвариантны, им нужен дополнительный сигнал, чтобы научиться вести себя по-разному при отличающихся пикселях. Прямые связи добавляются при подключении кодера и декодеров для сохранения деталей параметров BRDF. С этой целью в сеть кодера включены семь свёрточных слоев с шагом 2, так что рецептивное поле каждого выходного пикселя покрывает изображение целиком.
Для каждого параметра BRDF авторы применяли L2 регуляризацию для прямых наблюдений. Для каждой серии исследователи создавали новое освещение, случайным образом выбирая место нахождения точечного источника света на верхнем полушарии. Это гарантирует, что сеть не переобучится на положении света и воспроизведет внешний вид в других условиях освещения. Итоговая функция потерь для части сети кодер-декодер:
Где
— L2 потери для диффузного цвета, нормали, шероховатости и воспроизведенного изображения, соответственно. С учётом уровня параметров, извлечённых кодером, они отправляются в классификатор для предсказания типа материала, чтобы затем оценить параметры BRDF для каждого материала и использовать результаты классификации в качестве весов (вывод слоя SoftMax). Это усредняет предсказания для получения итогового восстановления BRDF. Классификатор обучается вместе с кодером и декодером с нуля, при этом веса каждой метки настроены так, что они обратно пропорциональны числу примеров в таблице 2. Так удалось сбалансировать типы материалов в функции потерь.
Общая функция потерь сети и классификатора:
Результаты
Для подтверждения обобщающей способности метода SVBDRF, авторами были получены результаты на фотографиях, снятых при помощи мобильных телефонов в помещении и на улице. Получились линейные RAW изображения с выключенной вспышкой, с использованием приложения Adobe Lightroom Mobile. Мобильные телефоны держали в руках, оптическая ось камеры была только приблизительно перпендикулярна поверхностям (см. рис 4).
Качественные результаты с разных телефонов: На рисунке 6 показаны SVBRDF и обычные результаты оценки для фото, сделанных на 3 мобильных телефона: Huawei P9, Google Tango и iPhone 6s. Учёные наблюдали, что даже на одном изображении сеть верно предсказывает BRDF и нормали, при чём изображения, полученные с использованием предсказанных параметров, кажутся очень похожими на входные. Кроме того, эта же сеть хорошо обобщается на разные мобильные устройства, что показывает, что наше расширение данных успешно помогает сети выявлять различия между устройствами. Для некоторых материалов с зеркальными бликами, сеть может ошибочно терять информацию из-за насыщения. Сеть также может восстанавливать разумные нормали даже в сложных случаях.
Перевод: Екатерина Попкова