fbpx
  • Робот имитирует поведение человека с помощью нейросети

    AVID — это метод для обучения роботов действиям через воображение и наблюдение за людьми. Модель принимает на вход видео с демонстрацией действия человеком и генерирует видео с демонстрацией роботом. Исследователи используют CycleGAN для переноса видео с демонстрацией на робота. CycleGAN — это генеративно-состязательной нейросеть, которая решает задачу image-to-image translation для двух отличных областей с помощью непарных изображений из обеих областей.

    Одним из показателей интеллекта является способность учиться через наблюдение за другими. После наблюдения люди обычно сначала представляют, как сами выполняют действие, а затем начинают его выполнять. Исследователи решили перенести этот алгоритм действий на роботов. Часть с переносом видео с демонстрацией на робота представляет аналог воображения у людей.

    Пайплайн обучения алгоритма

    Как это работает 

    AVID минимизирует вовлеченность человека в определение задачи и оценку работы робота. Робот выучивает каждый из этапов задачи самостоятельно и не нуждается в человеческом вмешательстве.Для комплексных задач, которые состоят из нескольких этапов, исследователи извлекают изображения-инструкции из сгенерированной CycleGAN видеозаписи. Эти изображения составляют ключевые шаги для выполнения задачи и определяют функцию награды для RL-алгоритма. Робот практикует решение задачи с помощью алгоритма обучения с подкреплением.

    Сравнение моделей

    Чтобы оценить работу AVID и сравнить модель с конкурирующими подходами, исследователи обучили модели двум задачам. Первой задачей являлось приготовление кофе, которое поделили на три шага. Шаги включали в себя поднять кружку, поставить кружку в кофемашину и нажать на кнопку в верхней части кофемашины. Модели обучались на 30 видеоклипах с демонстрациями. Второй задачей являлось помещение кружки в шкаф. Шаги включали: ухватить ручку шкафа, открыть шкаф, поместить руку вверх, ухватить кружку и поместить кружку на полку шкафа. Для обучения этой задаче исследователи использовали 20 видеозаписей с человеческими демонстрациями.

    Исследователи тестировали конкурирующие подходы на двух задачах по 10 раз. AVID обошел остальных методы в обеих задачах при обучении на человеческих демонстрациях.

    Процент удачных попыток для конкурирующих подходов