Робот из Berkley обучается по визуальным подсказкам

робот обучается по визуальным подсказкам

Исследователи UC Berkeley поставили задачу обучить модель одновременно выполнять комплексные задания и обобщать имеющиеся знания на новые виды объектов.

Ученые попытались решить эту проблему, разработав нейросеть GVF, которая обучается выполнять задания, состоящие из 2 и более действий, на основе начального изображения среды.

Модель с роботом в качестве интерфейса действует так:

принимает на вход задачу (например, смахнуть мусор в совок) и начальное изображение с тем, как должна выглядеть среда;
определяет доступные в его окружении предметы;
воспроизводит это действие, используя доступные предметы и основываясь на изображении.

Обучение и архитектура решения

Процесс обучения делится на три этапа:

Сначала исследователи записывают видео того, как совершают действия с предметами (чаще всего действия связаны с задачами вида «взять предмет и использовать его для манипуляции над другим»);

Эти данные используются для обучения модели, предсказывающей то, какое действие роботу необходимо совершить. Для этой задачи в качестве модели была выбрана autoregressive RNN.

Помимо человеческих демонстраций, робот автономно собирает данные о взаимодействии со средой, исполняя случайно выбранные команды;
Затем исследователи обучают модель, которая предсказывает продолжение видео-последовательности на основе начального изображения и соответствующей последовательности действий.

В качестве модели на третьем шаге была выбрана Recurrent Convolutional Neural Network (R-CNN).

Модель из второго шага состоит из трех CNN и LSTM.

Результаты

Исследователи оценили работу модели как количественным способом, так и качественным.

Количественная оценка. Среднее расстояние до целевого объекта (см).

Видно, что предложенная модель, в сравнении с существующими архитектурами, в два раза более эффективна. В качестве архитектур для сравнения выступают Imitation Learning, Visual MPC, GVF без использования данных из шага 1 (см. Данные и архитектура решения).

Качественная оценка. Сравнение правильности алгоритма выполнения задачи разными архитектурами.

Кроме того, как можно заметить на изображении ниже, конкурирующие архитектуры более шумно исполняют требуемое действие в сравнении с GVF.

Ограничения и будущие исследования

Исследователи признают наличие у работы двух ограничений, которые впоследствии будут более подробно изучены:

Задачи, которые поступают роботу, несмотря на разнообразие, в большинстве случаев задействуют только три действия (протереть, подмести, подержать).

В будущей работе планируется расширить данные и включить в список действий такие, как «порезать», «нанизать» и «прикрутить».

Текущий подход полагается исключительно на визуальные подсказки.

В схожих моделях на вход поступают тактильные данные, которые робот собирает автономно. Исследователи планируют разнообразить типы входных данных для GVF, добавив тактильные данных к визуальным. Это вносит дополнительные сложности для обучения и оценки перформанса модели.

Так, исследователи предложили модель, которая эффективнее существующих решает задачу единовременного обучения роботов комплексным действиям и генерализации навыков на широкий спектр предметов.