Модель NVIDIA DrEureka обучает роботов быстрее, чем люди

nvidia dreureka

NVIDIA продемонстрировала, что большие языковые модели могут ускорить обучение роботов. Роботы с четырьмя конечностями, обученные с помощью модели DrEureka, превосходят стандартные системы обучения на 34% по скорости движения робота в реальных условиях и на 20% — по пройденному им расстоянию.

При разработке роботов их обычно обучают в виртуальной среде и затем тестируют в реальном окружении. Перенос навыков из симуляции и реальную среду является одной из самых трудозатратных задач: в реальном мире существуют непредусмотренные в симуляции «возмущения» сцены, которые могут непредсказуемо влиять на поведение робота (например, наклон поверхности относительно горизонта или вариации ее коэффициента трения). Обычно для такого переноса требуется много ручных настроек функций вознаграждения и параметров моделирования.

В исследовании представлена технология DrEureka (Domain Randomization Eureka), которая автоматически создает функции вознаграждения и рандомизирует виртуальные среды, внося случайные возмущения. DrEureka требует только высокоуровневого описания задачи и быстрее и эффективнее, чем разработанные человеком функции вознаграждения, переносит изученные стратегии из моделируемой среды в реальный мир.

DrEureka основана на технологии Eureka, которая была представлена в октябре 2023 года. Eureka использует описание роботизированной задачи и языковую модель для создания программных реализаций функции вознаграждения, которая измеряет успех в выполнении этой задачи. Затем эти функции вознаграждения запускаются в режиме моделирования, и результаты возвращаются в языковую модель, которая анализирует результат и улучшает функцию вознаграждения.

Для учета возможных возмущений среды DrEureka автоматически настраивает параметры рандомизации пространства. DrEureka использует многоступенчатый процесс, позволяющий одновременно оптимизировать функции вознаграждения и параметры рандомизации предметной области.

Исследователи оценивали DrEureka на роботах с четырьмя конечностями, хотя этот метод является общим и применим к различным роботам и задачам. Результаты показывают, что роботы, обученные с помощью DrEureka, превосходят стандартные системы обучения, разработанные человеком, на 34% по скорости движения и на 20% по расстоянию, пройденному в реальных условиях. Ученые также протестировали DrEureka на ловкость манипуляций роботизированными руками. За определенный промежуток времени лучший из роботов, обученный DrEureka, выполнил на 300% больше поворотов куба, чем робот, обученный человеком.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt