fbpx
  • Как использовать эволюционные алгоритмы для обучения беспилотных автомобилей

    Исследователи из DeepMind совместно с Waymo применили алгоритм естественного отбора для подбора параметров модели, распознающей пешеходов на дороге. Использование эволюционного обучения сократило процент ложно распознанных объектов на 24%.

    Чтобы сделать оптимизировать процесс обучения, исследователи из DeepMind разработали способ подбора гиперпараметров с помощью эволюционного соревнования. Этот метод называется Population Based Training (PBT). В нем скомбинированы достоинства случайного поиска и ручной подборки гиперпараметров.  

    Как и случайный поиск, PBT также начинает с множества нейросетей, параметры которых инициализированы случайно. Нейросети периодически оцениваются и соревнуются друг с другом в эволюционной манере. Если член популяции (нейросеть с заданными параметрами) выступает хуже остальных, он заменяется на потомство более сильного члена полуляции. Потомство в этом случае — копия нейросети с более высоким скором с модифицированными гиперпараметрами. PBT не требует заново тренировать нейросети с нуля, потому что потомственная модель наследует то, что уже успел выучить родитель. В сравнении со случайным поиском подход тратит больше ресурсов на обучение моделей с оптимальными гиперпараметрами.

    waymo blog 2
    Как работает PBT

    Эволюционные алгоритмы в Waymo

    Первые эксперименты, которые DeepMind и Waymo проводили вместе, заключались в детектировании границ вокруг объектов: пешеходов, велосипедистов и мотоциклистов. Цель была в том, чтобы понять, может ли PBT улучшить предсказания границ пешеходов. Для этого использовались две метрики:

    • Recall: часть пешеходов, которую нашла нейросеть, поделенная на общее число пешеходов;
    • Точность: процент верно распознанных объектов

    Автомобили Waymo распознают этих участников дороги с помощью нейросетей и других подходов. Цель была в том, что бы повысить recall до 99% с использованием эволюционного обучения.

    Во время экспериментов исследователи заметили, что ключевое преимущество PBT, — передача потомству параметров наиболее точных нейросетей, — может быть и недостатком. Это связано с тем, что модель оптимизирует настоящее и не способна учитывать долгосрочные последствия.

    Результаты

    PBT сократил процент ложно распознанных пешеходов на 24% в сравнении с вручную оптимизированными моделями. Ресурсы на обучение и время обучения также сократились.