RxR: датасет для навигации в пространстве с помощью описаний

Room-Across-Room (RxR) — это датасет для навигации в пространстве с помощью текстовых команд. Текстовые команды в RxR представлены на трех языках: английском, хинди и телугу. Кроме того, пути в датасете длиннее, чем в альтернативных наборах данных. Каждое слово в текстовой инструкции размечено по времени с виртуальными позами создателей инструкций и валидаторов.

В чем проблема

Задача Vision-and-Language Navigation (VLN) требует вычислительных агентов отличать взаимодействия между языком, визуальными сценами и движением.

Подробнее про датасет

Данные путей соответствуют четырем принципам:

  1. Высокая вариация в длине путей, чтобы агенты не эксплуатировали данные о длине пути;
  2. Пути могут приводить к цели опосредованно, чтобы агенты не шли прямо к цели;
  3. Естественность: пути не должны быть цикличны или постоянно меняться так, что бы людям было сложно их описать и следовать им;
  4. Равномерное покрытие точек среды, чтобы максимизировать разнообразие обращений к визуальным точкам и объектам
Пример формата данных
Сравнение  Vision-and-Language Navigation датасетов
Дескриптивная статистика по датасету
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt