Команда ученых из Калифорнийского университета создала алгоритм распознавания объектов, который идентифицирует объекты реального мира, используя тот же метод визуального обучения, что и человек.
Люди могут понять, что они смотрят на собаку или кошку, даже если животное прячется за креслом, откуда виднеются только лапы или хвост. На основании этой информации человек может представить, где находится туловище и голова собаки. Такое умение пока не доступно алгоритмам компьютерного зрения — им трудно создать полную картину объекта, увидев только некоторые его части.
В новом подходе ученые предложили способ обойти эти недостатки.
Метод распознавания
Метод состоит из трех этапов:
- Сначала алгоритм разбивает изображение на небольшие части.
- Затем нейросеть узнает, как эти части изображения сочетаются друг с другом, составляя рассматриваемый объект.
- После этого алгоритм изучает остальную часть изображения, которая окружает объект, и пытается понять, имеет ли она отношение к первоначальному объекту.
Чтобы помочь алгоритму «учиться», инженеры решили создать копию среды, в которой живут люди. Они использовали множество фотографий и видео на которых изображены объекты одного типа с разных точек зрения — вблизи, вдалеке, со скрытыми частями. Алгоритм обучается без учителя и изучает объекты как человек — встречая множество вариантов объекта в разных контекстах.
Исследователи протестировали работу алгоритма на 9000 изображениях. Он смог построить детальную модель человеческого тела без внешнего наведения и без маркировки изображений и успешно определял объекты, видя только некоторые их части.