Профессор Гарвардского Университета рассказал о различиях биологического и компьютерного зрения

В книге «‎Biological and Computer Vision»‎ профессор Габриэль Крейман рассказал о различиях биологического и компьютерного зрения. Мы перевели ключевые моменты этого сравнения.

О книге

Обложка «‎Biological and Computer Vision»

Книга «‎Biological and Computer Vision»‎ (перев.: «‎Биологическое и компьютерное зрение») написана для тех, кто интересуется историей и развитием компьютерного зрения. Выпущена в начале 2021 года, на данный момент доступна на английском языке. Профессор Гарвардского Университета рассказывает о том, как люди и животные обрабатывают визуальные данные и насколько далеко мы продвинулись к воспроизведению этого процесса в компьютерах.

Небольшая предыстория

С первых лет существования искусственного интеллекта учёные пророчили создание компьютеров, которые «видят» мир. В 1966 году сотрудники Массачусетского технологического института запустили проект «The Summer Vision Project» — двухмесячный проект по созданию компьютерной системы, способной различать объекты и фон на изображениях. Проект не преуспел, и только в начале 2010-х системы компьютерного зрения стали пригодными для использования на практике. О том, почему двухмесячная задача растянулась на полвека, оставаясь до конца не решённой, рассуждают журналист VentureBeat совместно с автором книги.

Разница в «‎железе»‎

«‎Биологическое зрение — продукт миллионов лет эволюции. Нет причин изобретать велосипед при разработке вычислительных моделей»‎, — пишет Габриэль Крейман. Подходящим источником вдохновения для искусственного интеллекта и компьютерного зрения стало устройство зрительной коры головного мозга. Но прежде чем оцифровать зрение, учёным пришлось преодолеть аппаратный разрыв между биологическими и компьютерными носителями.

Биологическое зрение работает на органических клетках, а компьютерные технологии построены на транзисторах электронных схем. Для подражания зрению необходима теория, реализуемая как в биологических организмах, так и на компьютерах. Эта теория не должна быть как слишком низкоуровневой, так и слишком абстрактной. Профессор Крейман определил, что необходимый масштаб изучения новой коры мозга — активность нейронов в миллисекундах. Искусственные нейросети разработаны на основании медицинских исследований в этом масштабе и имитируют работу мозга млекопитающих.

Разница в архитектуре

Работы в области глубокого обучения за последние десятилетия помогают компьютерам подражать биологическому зрению. Свёрточные слои, имитирующие зрительную кору мозга, справляются с поиском закономерностей в визуальных данных. Однако разница в архитектуре остаётся значительной.

Первым различием является подход к понятию «‎слои»‎. В информатике «‎слоями»‎ называют этапы обработки информации, в этом смысле слой подобен области мозга. Фактически, каждая область биологического мозга имеет шестислойную структуру. До сих пор не до конца изучены свойства слоистой структуры, которые следует имитировать компьютерному зрению.

Второе различие — информация в мозге движется в нескольких направлениях. Сетчатка глаза подаёт сигналы ко множеству областей мозга, и каждая область имеет обратную связь со своими предшественниками. Внутри каждой области нейроны также обмениваются между собой информацией. Все эти взаимосвязи помогают мозгу заполнять пробелы в визуальной информации и делать выводы в условиях неполноты сведений.

Напротив, в искусственных нейронных сетях данные обычно движутся в одном направлении и нейроны одного слоя не связаны между собою. Метод ‎обратного распространения ошибки имитирует обратную связь, но используется только во время обучения, и его недостаточно для имитации деятельности мозга. А рекуррентные нейронные сети, чей принцип действия ближе к биологическому мозгу, всё ещё имеют ограниченное применение в компьютерном зрении.

Разница в наборе задач

Биологическое зрение многозадачно. В режиме реального времени мы выделяем важные объекты из фона, понимаем контекст, «‎классифицируем»‎ увиденное и так далее. Напротив, современные системы компьютерного зрения предназначены для конкретной задачи каждая. Несмотря на усилия в этом направлении, обобщающая способность компьютерного зрения далека от возможностей мозга.

Разница в интеграции

У людей и животных зрение тесно связано с обонянием, осязанием и слухом. В системах искусственного интеллекта каждый из этих процессов происходит отдельно. Кроме того, у людей зрение глубоко интегрировано с другими функциями мозга: логикой, рассуждениями, языком и пониманием здравого смысла. Такие области являются серьёзным вызовом для учёных в AI. Неизвестно, могут ли они быть реализованы по отдельности и затем интегрированы со зрением, либо сама интеграция — ключ к их воплощению.