Исследователи из University of Washington опубликовали нейросетевую модель, которая заменяет задний фон на фотографии. Модель выдает итоговые изображения со скоростью 30 кадров в секунду для разрешения 4K и 60 кадров в секунду — для HD. В сравнении с state-of-the-art подходами модель выдает более точные результаты. Кроме точности предсказаний, модель обходит альтернативные подходы в разрешении генерируемых изображений и скорости предсказания.
В чем проблема
Предложенная модель основывается на идее матирования фона, где делают дополнительный кадр с фоном и используют его для восстановления переднего фона. Основной сложностью является вычисление для высокого разрешения, где должны учитываться мелкие детали волос. При этом модель должна работать выдавать предсказания в реальном времени. Чтобы обойти эти ограничения, исследователи предлагают две двухступенчатый фреймворк.
Подробнее про фреймворк
На первом этапе базовая сеть рассчитывает результат в низком разрешении. На втором этапе другая модель корректирует и уточняет результат первой на отдельных патчах изображения. На выходе фреймворк отдает отделенный от заднего фона передний фон в высоком разрешении.
Кроме моделей, исследователи опубликовали два датасета для задачи удаления заднего фона: VideoMatte240K и PhotoMatte13K/85.