Исследователи из Гарварда обучили RL-алгоритм для управления нанодроном

В Гарварде обучили RL-алгоритм, который в реальном времени управляет нанодроном и ищет целевой объект. В данном случае целевым объектом был источник света. Модель была встроена в устройство. Вычисления производятся с помощью Cortex-M4 микроконтроллера. Алгоритм использует данные со светового датчика и датчика оптического потока для принятия решений.

Архитектура нейросети

Такая система поможет, в случае если дрон попал в зону без GPS. Дрон учится искать источник света и для этого использует встроенные датчики. В качестве архитектуры модели использовалась Deep Q-Network (DQN). Модель обучалась в симуляторе с целевой функцией, которая минимизировала расстояние между дроном и источником света.

После обучения модели ее размер был уменьшен за счет квантизации до 3-х килобайт. Это было необходимо, чтобы уместить модель на устройство. Устройством, на котором тестировали модель, был CrazyFlie нанодрон с чипом Cortex-M4, на котором производились вычисления. Модель можно дообучить и масштабировать на другие целевые объекты, помимо источника света.

Как это хорошо это работает?

Исследователи протестировали модель в реальной среде на 105 полетах. Если смотреть на процент успешных полетов, для полной версии модели он составил 72%. Полная версия модели (Float32 History) хранила информацию о текущем состоянии и предыдущих трех. В другом варианте эксперимента исследователи варьировали количество препятствий. Для постоянного количества препятствий точность модели была близка к 100%.

Сравнение полной модели (Float32 History) с другими ее вариациями и стандартной моделью

Harvard Обучение с подкреплением

Архитектура нейросети

Как это хорошо это работает?

Читайте также