fbpx
  • Исследователи из Stanford научили нейросеть планировать

    Исследователи из Stanford обучили нейросеть, которая после просмотра обучающего видео воспроизводит последовательность действий для достижения цели. 

    Реальный мир содержит в себе широкий набор вероятностей действий. Большинство традиционных подходов для планирования не учитывают эти вероятности. Исследователи предлагают представить характеристики среды в латентном пространстве, чтобы выучить модель сопоставлять текущее состояние среды и действие, которое необходимо предпринять. 

    Архитектура модели 

    Модель для создания латентного пространства и сопоставления характеристик среды и действий, делится на 2 компонента:

    • Переходная модель (transition model), которая предсказывает следующее состояние на основании текущего состояния и действия;
    • Conjugate constraint модель сопоставляет текущие действия с ранее совершенными действиями — в основе лежит RNN

    Нейросеть берет видео и выучивает переходы между состояниями с помощью двух основных компонентов. На выходе выходе генерируется последовательность действий, которая из состояния А приведет к состоянию Б.

    Визуализация составных частей модели: (а) — переходная модель, (b) — conjugate constraint модель, (c) — полная модель

    Подходы к планированию

    Исследователи экспериментируют с двумя подходами к планированию, которые опираются на свойства действий, полученные из нейросети. 

    Первый подход сопоставляет текущее состояние среды и целевое в латентном пространстве. В то же время алгоритм сопоставляет возможные действия с совершенными и семплирует из разных действий, чтобы дойти до целевого состояния.

    Второй подход исследователи называют “walkthrough planning”. Идея в том, что алгоритм выдает визуальные различия между текущим и целевым состояниями среды. Это не прямой подход к решению задачи и не выдает последовательность действий, но может служить как сигнал о награде в другой модели.

    Данные

    Для исследования был использован датасет с обучающими видео CrossTask. Датасет состоит из видеозаписями решения 83 задач. Среди примеров задач — жарка блинов, замена колеса.

    Проверка работы модели

    Исследователи сравнили нейросеть с несколькими базовыми решениями:

    • Случайно выбирать действия из равномерного распределения;
    • Universal Planning Networks (UPN) — наиболее схожая модель из предшествующих работ

    Помимо этого, исследователи проверили, вклад каждого из компонентов нейросети в точность предсказаний. Метрики для оценки были — Success rate, Accuracy и mIoU.

    Ниже видно, что точность модели не превысила 50%. Несмотря на то, что по метриками модель обходит конкурирующие подходы, нельзя говорить о корректности сравнений.  

    Результаты сравнений, Ours — различные вариации предложенной модели

    Задача восстановления последовательности действий — это комплексная задача. Более привычно к решению подобной задачи подходить не через RNN, а через алгоритмы обучения с подкреплением.