fbpx
  • FoodAI: нейросеть распознает калорийность еды по изображению

    В SalesForce обучили нейросеть, которая по изображению еды предсказывает ее калорийность. Модель доступна через API сервис или в приложении Healthy 365. FoodAI обходит существующие подходы на задаче классификации типа блюда. Модель основана на SENet и ResNeXt архитектурах.

    Основное ограничение текущих приложений по отслеживанию здоровья и питания — необходимость вручную вбивать каждый прием пищи. Нейросеть от исследователей из SalesForce упрощает трекинг потребляемой пищи. Система распознает класс объекта и его характеристики, включая калорийность. Сложность при решении такой задачи — количество классов блюд и их схожесть в отдельных случаях.

     In this paper we present extensive analysis and insights into the development of this system. FoodAI has been deployed as an API service and is one of the components powering Healthy 365, a mobile app developed by Singapore’s Heath Promotion Board. We have over 100 registered organizations (universities, companies, start-ups) subscribing to this service and actively receive several API requests a day. FoodAI has made food logging convenient, aiding smart consumption and a healthy lifestyle.

    Ограничения модели

    FoodAI обучали на корпусе из 400 тысяч изображений еды с 756 отдельными категориями блюд. Категории включают в себя основные блюда, напитки и закуски. Данные были собраны вручную на основе результатов поисковых запросов. Разметка производилась вручную. 100 классов из 756 относятся к локальным блюдам Сингапура (>500 изображений на класс).

    Что внутри FoodAI

    Нейросеть принимает на вход изображение объекта и выдает список из 10 наиболее вероятных классов. Архитектура нейросети основана на SENet и ResNeXt сверточных архитектурах.

    Модель была задеплоена как RESTful веб-сервис, к которому можно получит доступ через HTTP/HTTPS. API может воспользоваться платформа любого типа: мобильное приложение, веб-приложение или декстоп-приложение. Ниже изображена полная архитектура обученной модели.

    Визуализация архитектуры системы

    Оценка работы модели

    Исследователи проверили, как разные архитектуры справляются с задачей классификации блюд из датасета FoodAI-756. Модели были предобучены на ImageNet и подогнаны под задачу классификации блюд. Комбинация SENet, ResNeXt и Focal функции потерь выдает наиболее точные результаты.

    Сравнение разных архитектур на задаче предсказания классификации блюда на изображении
    Наиболее часто неверно распознанные категории