Обучение с подкреплением для контроля термоядерных реакций

DeepMind объявила о применении обучения с подкреплением для управления состоянием плазмы в ходе термоядерной реакции. Алгоритм DeepMind позволил повысить стабильность процесса управляемого термоядерного синтеза на токамаке.

Ядерный синтез — многообещающий источник практически неограниченной энергии. В земных условиях температуры, требуемые для реализации термоядерного синтеза, должны превышать 100 миллионов градусов Цельсия. Такие температуры достигаются в токамаке, который может содержать плазму, более горячую, чем ядро Солнца. Однако плазма в токамаках нестабильна, что затрудняет поддержание процесса, необходимого для ядерного синтеза. Чтобы гарантировать, что плазма никогда не коснется стенок токамака, что приведет к потере тепла (и, возможно, повреждению), система управления должна координировать катушки и регулировать напряжение на них тысячи раз в секунду.

Для решения данной задачи DeepMind сотрудничала со Швейцарским плазменным центром EPFL. Система управления реактором DeepMind обучена с использованием моделирования, выполненного исследователями EPFL. В исследованиях термоядерного синтеза необходимость моделирования обусловлена тем, что работающие в настоящее время реакторы могут поддерживать плазму в одном эксперименте только в течение нескольких секунд, после чего им требуется время для перезагрузки.

Система DeepMind обучилась управлять токамаком — в частности, токамаком TCV в швейцарском центре Plamsa — в процессе моделирования токамака на временной шкале порядка нескольких часов, а затем перенесла эти навыки в реальный TCV. В то время как традиционные контроллеры используют алгоритмы для оценки свойств плазмы в режиме реального времени и соответствующей регулировки напряжения магнитов, система DeepMind использует единый алгоритм для управления всеми 19-ю катушками токамака одновременно, автоматически определяя, какие напряжения лучше всего подходят для достижения “конфигурации плазмы” непосредственно с датчиков.

В качестве демонстрации DeepMind впервые показал, что система может управлять аспектами плазмы с помощью одного контроллера. Затем лаборатория использовала систему для создания ряда плазменных структур, которые изучаются физиками плазмы на предмет их полезности для выработки энергии.