fbpx
  • Нейросеть от FAIR генерирует подписи к фото для людей с проблемами зрения

    Нейросеть от Facebook AI генерирует описания к фотографиям для пользователей с проблемами зрения. Система использует распознавание объектов, чтобы генерировать текстовые описания изображения. Это упрощает использование Facebook для пользователей с проблемами зрения. В качестве архитектуры модели использовали Faster R-CNN из Detectron. Итоговая нейросеть распознает 1200 классов объектов.

    Зачем это нужно

    Когда пользовать пролистывают новостную ленту, они могут столкнуться с фотографиями. Часть пользователей не может сразу распознать содержание изображения. Пользователи с проблемами зрения могут воспринимать содержание изображения с помощью текстовых описаний сцены (альтернативного текста). Однако большая часть изображений не имеет текстового описания. Для таких случаев в FAIR разработали систему автоматического альтернативного текста (AAT).

    Обновления в AAT

    В обновленной версии система AAT распознает в 10 раз больше классов объектов. Кроме того, сами описания более детализированы и включают действия, знаки, виды животных и другое. Пример описания: “Селфи двух людей на улице напротив Пизанской башни”.

    Разработчики отошли от формата обучения с учителем, чтобы увеличить количество классов объектов, которые модель способна распознать, и снизить затраты на разметку. Изначально AAT модель распознавала только 100 объектов. Обновленную модель обучали на миллиардах открытых изображениях в Instagram и их хэштегах. Затем модель дообучали на данных из разных стран с переводом хэштегов на разные языки. Кроме того, нейросеть тестировали на наличие скрытых смещений относительно гендера, цвета лица и возраста.

     

    Пример генерируемого описания
    Подписаться
    Уведомить о
    guest
    0 Comments
    Межтекстовые Отзывы
    Посмотреть все комментарии