Как использовать эволюционные алгоритмы для обучения беспилотных автомобилей

Исследователи из DeepMind совместно с Waymo применили алгоритм естественного отбора для подбора параметров модели, распознающей пешеходов на дороге. Использование эволюционного обучения сократило процент ложно распознанных объектов на 24%.

Чтобы сделать оптимизировать процесс обучения, исследователи из DeepMind разработали способ подбора гиперпараметров с помощью эволюционного соревнования. Этот метод называется Population Based Training (PBT). В нем скомбинированы достоинства случайного поиска и ручной подборки гиперпараметров.

Как и случайный поиск, PBT также начинает с множества нейросетей, параметры которых инициализированы случайно. Нейросети периодически оцениваются и соревнуются друг с другом в эволюционной манере. Если член популяции (нейросеть с заданными параметрами) выступает хуже остальных, он заменяется на потомство более сильного члена полуляции. Потомство в этом случае — копия нейросети с более высоким скором с модифицированными гиперпараметрами. PBT не требует заново тренировать нейросети с нуля, потому что потомственная модель наследует то, что уже успел выучить родитель. В сравнении со случайным поиском подход тратит больше ресурсов на обучение моделей с оптимальными гиперпараметрами.

Эволюционные алгоритмы в Waymo

Первые эксперименты, которые DeepMind и Waymo проводили вместе, заключались в детектировании границ вокруг объектов: пешеходов, велосипедистов и мотоциклистов. Цель была в том, чтобы понять, может ли PBT улучшить предсказания границ пешеходов. Для этого использовались две метрики:

Recall: часть пешеходов, которую нашла нейросеть, поделенная на общее число пешеходов;
Точность: процент верно распознанных объектов

Автомобили Waymo распознают этих участников дороги с помощью нейросетей и других подходов. Цель была в том, что бы повысить recall до 99% с использованием эволюционного обучения.

Во время экспериментов исследователи заметили, что ключевое преимущество PBT, — передача потомству параметров наиболее точных нейросетей, — может быть и недостатком. Это связано с тем, что модель оптимизирует настоящее и не способна учитывать долгосрочные последствия.

Результаты

PBT сократил процент ложно распознанных пешеходов на 24% в сравнении с вручную оптимизированными моделями. Ресурсы на обучение и время обучения также сократились.