![](https://neurohive.io/wp-content/uploads/2019/09/Snimok-ekrana-2019-09-30-v-23.46.16-min.png)
В Гарварде обучили RL-алгоритм, который в реальном времени управляет нанодроном и ищет целевой объект. В данном случае целевым объектом был источник света. Модель была встроена в устройство. Вычисления производятся с помощью Cortex-M4 микроконтроллера. Алгоритм использует данные со светового датчика и датчика оптического потока для принятия решений.
Архитектура нейросети
Такая система поможет, в случае если дрон попал в зону без GPS. Дрон учится искать источник света и для этого использует встроенные датчики. В качестве архитектуры модели использовалась Deep Q-Network (DQN). Модель обучалась в симуляторе с целевой функцией, которая минимизировала расстояние между дроном и источником света.
![](https://neurohive.io/wp-content/uploads/2019/09/Snimok-ekrana-2019-09-30-v-23.43.18-min-570x367.png)
После обучения модели ее размер был уменьшен за счет квантизации до 3-х килобайт. Это было необходимо, чтобы уместить модель на устройство. Устройством, на котором тестировали модель, был CrazyFlie нанодрон с чипом Cortex-M4, на котором производились вычисления. Модель можно дообучить и масштабировать на другие целевые объекты, помимо источника света.
Как это хорошо это работает?
Исследователи протестировали модель в реальной среде на 105 полетах. Если смотреть на процент успешных полетов, для полной версии модели он составил 72%. Полная версия модели (Float32 History) хранила информацию о текущем состоянии и предыдущих трех. В другом варианте эксперимента исследователи варьировали количество препятствий. Для постоянного количества препятствий точность модели была близка к 100%.
![](https://neurohive.io/wp-content/uploads/2019/09/Snimok-ekrana-2019-09-30-v-23.39.56-min-570x165.png)