DIDI: датасет с изображениями нарисованных диаграмм

DIDI — это датасет, который содержит изображения нарисованных диаграмм и данные о процессе отрисовки диаграмм. Всего в датасете 58,655 рисунков, которые нарисовали 364 добровольцев. Сбором датасета занимались исследователи из Google Research и ETH Zurich. Исследователи собрали DIDI, чтобы спровоцировать исследовании в области представления интерактивных графических символов. 

Описание проблемы

Рукописный текст и скетчи являются одним из основных способов хранения информации. Распознавание символов (OCR) — это ранний подход к конвертации рукописного текста в цифровое представление. Электронные чернила позволяют комбинировать гибкость и эстетичность рукописного текста с возможностью обрабатывать и редактировать данные интерактивно. Существующие работы фокусировались на отдельном представлении рукописного и нарисованного контента. Исследователи предлагают обучать представления для такого вида хранения информации совместно. Для этой задачи они опубликовали датасет DIDI.

На данный момент существует три датасета с рукописными рисунками:

  1. Данные нарисованных диаграмм от Czech Technical University;
  2. KONDATE от Tokyo University of Agriculture and Technology;
  3. Датасет с 419 флоучартами от University of Nantes

Что внутри датасета

DIDI состоит из двух частей:

  • 22,287 диаграмм с текстовыми подписями;
  • 36,368 диаграмм без текстовых подписей

Данные собирали с помощью 384 добровольцев. Исследователи попросили добровольцев перерисовать существующие диаграммы в специальном мобильном приложении на планшете с помощью стилуса. Общее количество рисунков одного добровольца варьируется от 1 до 1291.

Интерфейс приложения для сбора данных

Формат данных

Сами данные представляются в формате NDJSON. Один элемент датасета содержит следующую информацию:

  1. Ключ, который является уникальным идентификатором рисунка;
  2. Идентификатор лейбла, который содержит sha1 хэш dot файла, который использовали для генерации изображения;
  3. Изображение в формате листа с штрихами. Каждый штрих является листом с значениями x, y координат и временной отметкой
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt