DeformableRavens: набор нейросетей Google AI для обучения роботов перемещению деформируемых объектов

Google AI представила набор нейросетей и бенчмарков к ним, позволяющих выполнить обучение роботов перемещению одно-, двух- и трехмерных деформируемых объектов. Код открывает возможности повышения уровня автоматизации на производствах.

Сложности, возникающие при манипулировании деформируемым объектом, заключается в невозможности полностью задать его конфигурацию. Например, для описания расположения жесткого куба в трехмерном пространстве достаточно указать положение неподвижной точки относительно его центра, однако в таком объекте, как ткань, положение всех его точек изменяется относительно друг друга. Даже при наличии точного описания состояния деформируемого объекта остается проблема реконструкции его динамики. Это затрудняет прогнозирование будущего состояния деформируемого объекта после того, как к нему уже будет применено действие, что часто важно для многоэтапных алгоритмов планирования.

В cтатье представлен бенчмарк DeformableRavens с открытым исходным кодом, включающих 12 задач, связанных с манипулированием одномерными (кабели), двумерными (ткани) и трехмерными (мешки) объектами. Помимо этого, код содержит набор нейронных сетей, позволяющих осуществить манипулирование по изображению объекта и конечной цели. В частности, модели позволяют переставлять кабели, разглаживать ткань и класть предмет в мешок (рис. 1). При выполнении задач положение объектов задается случайным образом, чтобы оценить эффективность нейросетей в различных условиях. Таким образом, код дает возможность обучить роботов сложным пространственным отношениям между объектами.

Рис. 1. Манипулирование одно- (слева), двух- (по центру) и трехмерными (справа) объектами.

Представленные в коде нейронные сети разработаны на основе представленных ранее моделей Transporter Networks, позволяющих совершать действия над твердыми объектами. Модификация Transporter Networks для работы с деформируемыми объектами заключалась в добавлении во входные данные, помимо изображения текущего положения объекта, фотографии цели перемещения, то есть желаемого конечного состояния объекта. Затем выполняется объединение признаков на основе поэлементного умножения для определения последовательных действий, которые требуется совершить над объектом для его перевода из начального состояния в конечное.

Google планирует улучшить эффективность нейросетей путем увеличения скорости расчета последовательности действий робота, а также добавления возможности модификаций этих последовательностей в режиме реального времени, чтобы робот мог сразу исправлять свои ошибки.