RxR: датасет для навигации в пространстве с помощью описаний

Room-Across-Room (RxR) — это датасет для навигации в пространстве с помощью текстовых команд. Текстовые команды в RxR представлены на трех языках: английском, хинди и телугу. Кроме того, пути в датасете длиннее, чем в альтернативных наборах данных. Каждое слово в текстовой инструкции размечено по времени с виртуальными позами создателей инструкций и валидаторов.

В чем проблема

Задача Vision-and-Language Navigation (VLN) требует вычислительных агентов отличать взаимодействия между языком, визуальными сценами и движением.

Подробнее про датасет

Данные путей соответствуют четырем принципам:

Высокая вариация в длине путей, чтобы агенты не эксплуатировали данные о длине пути;
Пути могут приводить к цели опосредованно, чтобы агенты не шли прямо к цели;
Естественность: пути не должны быть цикличны или постоянно меняться так, что бы людям было сложно их описать и следовать им;
Равномерное покрытие точек среды, чтобы максимизировать разнообразие обращений к визуальным точкам и объектам