fbpx
  • Нейросеть реконструирует модель объекта в 3D из изображения

    Исследователи из Google опубликовали self-supervised алгоритм, который реконструирует 3D модель объекта из изображения. Нейросеть разбивает объект с изображения на составные фигуры и объединяет их в 3D модель объекта. 

    CvxNets разбивают объект на выпуклые оболочки. Выпуклая оболочка определяется как набор half-space constraints. Такое представление объекта может использоваться для физических симуляций и других прикладных целей.

    Любой объект может быть декомпозирован на набор выпуклых политопов (выпуклых оболочек). Когда используется небольшое количество фигур, такая декомпозиция может рассматриваться как аппроксимация фигуры объекта по частям. В физических симуляциях и компьютерной графике декомпозиция объекта на фигуры является стандартной процедурой. CvxNets — это нейросетевая архитектура для представления ряда выпуклых фигур. Ряд фигур автоматически получается с помощью автокодировщика.  

    Представление объекта не затрачивает много ресурсов, потому что фигура объекта восстанавливается из ограниченного списка фигур. Помимо этого, метод не требует размеченных данных при обучении. Модель выучивается семантические ассоциации между фигурами (например, один и тот же элемент используется для представления спинки стульев).

    Архитектура модели

    Нейросеть аппроксимирует объект на входном изображении как набор из фигур. На вход поступает 2D изображение объекта. На выходе отдается модель объекта в 3D. Параметры модели оптимизируются с помощью градиентного спуска. Сама нейросеть состоит из кодировщика и декодировщика. Кодировщик уменьшает размерность входного изображения. Декодировщик для каждой составной части объекта выдает набор гиперплоскостей, которые описывают отдельную часть фигуры.

    Составные части модели

    Оценка работа алгоритма

    Исследователи сравнивали CvxNets с схожими self-supervised моделями. В качестве конкурирующих подходов были выбраны P2M, AtlasNet, OccNet и SIF. Модели проверялись на задаче ShapeNet. Ниже видно, что для отдельных классов объектов CvxNets справляются лучше остальных моделей. Однако, в целом, результаты предложенной модели сравнимы с state-of-the-art.

    Количественное сравнение моделей
    Качественное сравнение конкурирующих подходов на примере реконструкции пистолета, стула и самолета