DIDI: датасет с изображениями нарисованных диаграмм

DIDI — это датасет, который содержит изображения нарисованных диаграмм и данные о процессе отрисовки диаграмм. Всего в датасете 58,655 рисунков, которые нарисовали 364 добровольцев. Сбором датасета занимались исследователи из Google Research и ETH Zurich. Исследователи собрали DIDI, чтобы спровоцировать исследовании в области представления интерактивных графических символов.

Описание проблемы

Рукописный текст и скетчи являются одним из основных способов хранения информации. Распознавание символов (OCR) — это ранний подход к конвертации рукописного текста в цифровое представление. Электронные чернила позволяют комбинировать гибкость и эстетичность рукописного текста с возможностью обрабатывать и редактировать данные интерактивно. Существующие работы фокусировались на отдельном представлении рукописного и нарисованного контента. Исследователи предлагают обучать представления для такого вида хранения информации совместно. Для этой задачи они опубликовали датасет DIDI.

На данный момент существует три датасета с рукописными рисунками:

Данные нарисованных диаграмм от Czech Technical University;
KONDATE от Tokyo University of Agriculture and Technology;
Датасет с 419 флоучартами от University of Nantes

Что внутри датасета

DIDI состоит из двух частей:

22,287 диаграмм с текстовыми подписями;
36,368 диаграмм без текстовых подписей

Данные собирали с помощью 384 добровольцев. Исследователи попросили добровольцев перерисовать существующие диаграммы в специальном мобильном приложении на планшете с помощью стилуса. Общее количество рисунков одного добровольца варьируется от 1 до 1291.

Формат данных

Сами данные представляются в формате NDJSON. Один элемент датасета содержит следующую информацию:

Ключ, который является уникальным идентификатором рисунка;
Идентификатор лейбла, который содержит sha1 хэш dot файла, который использовали для генерации изображения;
Изображение в формате листа с штрихами. Каждый штрих является листом с значениями x, y координат и временной отметкой