fbpx
  • DIDI: датасет с изображениями нарисованных диаграмм

    DIDI — это датасет, который содержит изображения нарисованных диаграмм и данные о процессе отрисовки диаграмм. Всего в датасете 58,655 рисунков, которые нарисовали 364 добровольцев. Сбором датасета занимались исследователи из Google Research и ETH Zurich. Исследователи собрали DIDI, чтобы спровоцировать исследовании в области представления интерактивных графических символов. 

    Описание проблемы

    Рукописный текст и скетчи являются одним из основных способов хранения информации. Распознавание символов (OCR) — это ранний подход к конвертации рукописного текста в цифровое представление. Электронные чернила позволяют комбинировать гибкость и эстетичность рукописного текста с возможностью обрабатывать и редактировать данные интерактивно. Существующие работы фокусировались на отдельном представлении рукописного и нарисованного контента. Исследователи предлагают обучать представления для такого вида хранения информации совместно. Для этой задачи они опубликовали датасет DIDI.

    На данный момент существует три датасета с рукописными рисунками:

    1. Данные нарисованных диаграмм от Czech Technical University;
    2. KONDATE от Tokyo University of Agriculture and Technology;
    3. Датасет с 419 флоучартами от University of Nantes

    Что внутри датасета

    DIDI состоит из двух частей:

    • 22,287 диаграмм с текстовыми подписями;
    • 36,368 диаграмм без текстовых подписей

    Данные собирали с помощью 384 добровольцев. Исследователи попросили добровольцев перерисовать существующие диаграммы в специальном мобильном приложении на планшете с помощью стилуса. Общее количество рисунков одного добровольца варьируется от 1 до 1291.

    Интерфейс приложения для сбора данных

    Формат данных

    Сами данные представляются в формате NDJSON. Один элемент датасета содержит следующую информацию:

    1. Ключ, который является уникальным идентификатором рисунка;
    2. Идентификатор лейбла, который содержит sha1 хэш dot файла, который использовали для генерации изображения;
    3. Изображение в формате листа с штрихами. Каждый штрих является листом с значениями x, y координат и временной отметкой