Алгоритмы CV превзошли человека в распознавании образов

Модель Alibaba AliceMind заняла первое место в соревновании VQA Challenge 2021, на котором требовалось ответить на 1.1 млн вопросов о 250 000 изображениях. Алгоритм Alibaba продемонстрировал точность распознавания 81,26%, в то время как точность распознавания людьми составила 80,83%.

На Visual Question Answering (VQA) Challenge 2021 модели компьютерного зрения изучают изображения и отвечают на вопросы об изображениях. AliceMind превзошла, в частности, модель Microsoft и людей, которые отвечали на вопросы параллельно с моделями.

Датасет VQA состоит из 250 000 изображений COCO и абстрактных сцен. Для каждого из имеется не менее 3-х вопросов. Ответы на вопросы принадлежат одному из трех типов:

Да/нет. Например: «Дождливо ли на фотографии?», «Ожидает ли человек на фотографии друзей?», «Расстроен ли человек на фотографии?»
Число. Например: «На сколько частей разрезана пицца?», «Сколько человек на фотографии?», «Сколько программ открыто на экране ноутбука?»
Другие. Например: «Кто на фотографии надел очки?», «На чем сидит ребенок?», «Что делает человек на фотографии?»

Alibaba использует AliceMind в чат-боте Alime Shop Assistant, которым ежедневно пользуются несколько десятков тысяч продавцов Alibaba.