fbpx
  • Исследователи из Гарварда обучили RL-алгоритм для управления нанодроном

    В Гарварде обучили RL-алгоритм, который в реальном времени управляет нанодроном и ищет целевой объект. В данном случае целевым объектом был источник света. Модель была встроена в устройство. Вычисления производятся с помощью Cortex-M4 микроконтроллера. Алгоритм использует данные со светового датчика и датчика оптического потока для принятия решений. 

    Архитектура нейросети

    Такая система поможет, в случае если дрон попал в зону без GPS. Дрон учится искать источник света и для этого использует встроенные датчики. В качестве архитектуры модели использовалась Deep Q-Network (DQN). Модель обучалась в симуляторе с целевой функцией, которая минимизировала расстояние между дроном и источником света.

    Визуализация составных частей модели

    После обучения модели ее размер был уменьшен за счет квантизации до 3-х килобайт. Это было необходимо, чтобы уместить модель на устройство. Устройством, на котором тестировали модель, был CrazyFlie нанодрон с чипом Cortex-M4, на котором производились вычисления. Модель можно дообучить и масштабировать на другие целевые объекты, помимо источника света.

    Как это хорошо это работает?

    Исследователи протестировали модель в реальной среде на 105 полетах. Если смотреть на процент успешных полетов, для полной версии модели он составил 72%. Полная версия модели (Float32 History) хранила информацию о текущем состоянии и предыдущих трех. В другом варианте эксперимента исследователи варьировали количество препятствий. Для постоянного количества препятствий точность модели была близка к 100%.

    Сравнение полной модели (Float32 History) с другими ее вариациями и стандартной моделью