Room-Across-Room (RxR) — это датасет для навигации в пространстве с помощью текстовых команд. Текстовые команды в RxR представлены на трех языках: английском, хинди и телугу. Кроме того, пути в датасете длиннее, чем в альтернативных наборах данных. Каждое слово в текстовой инструкции размечено по времени с виртуальными позами создателей инструкций и валидаторов.
В чем проблема
Задача Vision-and-Language Navigation (VLN) требует вычислительных агентов отличать взаимодействия между языком, визуальными сценами и движением.
Подробнее про датасет
Данные путей соответствуют четырем принципам:
- Высокая вариация в длине путей, чтобы агенты не эксплуатировали данные о длине пути;
- Пути могут приводить к цели опосредованно, чтобы агенты не шли прямо к цели;
- Естественность: пути не должны быть цикличны или постоянно меняться так, что бы людям было сложно их описать и следовать им;
- Равномерное покрытие точек среды, чтобы максимизировать разнообразие обращений к визуальным точкам и объектам