fbpx
  • RxR: датасет для навигации в пространстве с помощью описаний

    Room-Across-Room (RxR) — это датасет для навигации в пространстве с помощью текстовых команд. Текстовые команды в RxR представлены на трех языках: английском, хинди и телугу. Кроме того, пути в датасете длиннее, чем в альтернативных наборах данных. Каждое слово в текстовой инструкции размечено по времени с виртуальными позами создателей инструкций и валидаторов.

    В чем проблема

    Задача Vision-and-Language Navigation (VLN) требует вычислительных агентов отличать взаимодействия между языком, визуальными сценами и движением.

    Подробнее про датасет

    Данные путей соответствуют четырем принципам:

    1. Высокая вариация в длине путей, чтобы агенты не эксплуатировали данные о длине пути;
    2. Пути могут приводить к цели опосредованно, чтобы агенты не шли прямо к цели;
    3. Естественность: пути не должны быть цикличны или постоянно меняться так, что бы людям было сложно их описать и следовать им;
    4. Равномерное покрытие точек среды, чтобы максимизировать разнообразие обращений к визуальным точкам и объектам
    Пример формата данных
    Сравнение  Vision-and-Language Navigation датасетов
    Дескриптивная статистика по датасету