Hivemind: библиотека для децентрализованного обучения нейросетей

Hivemind — это библиотека для децентрализованного обучения крупных нейросетей. Функционал библиотеки обеспечивает распределённое обучение моделей на оборудовании пользователей. На данный момент библиотека на стадии пре-альфа.

Описание проблемы

Более крупные нейросети являются state-of-the-art как в задачах компьютерного зрения, так и в задачах обработки естественного языка. Среди примеров:

Предобученные трансформеры — для NLP;
Сверточные нейросети — для компьютерного зрения;
GPT-3 с 175 миллиардами параметров

Transfer learning позволяет улучшать качество моделей с увеличением обучающей выборки. Однако обучение таких крупных моделей упирается в ограниченность вычислительных ресурсов. Одно обучение GPT-3 стоит $4.6 миллиона в облачных GPU. Так, вносить вклад в разработку state-of-the-art моделей глубокого обучения зачастую могут только ограниченные команды исследователей в корпорациях. Hivemind позволяет обойти это ограничение и децентрализовать обучение крупных нейросетей.

Подробнее про hivemind

Hivemind использует слой Decentralized Mixture of Experts (DMoE) для того, чтобы позволить группе пользователей распределить вычисления между машинами.

В hivemind все пользователи:

Принимают одну или более моделей в зависимости от характеристик их железа;
Участвуют в асинхронном обучении моделей и принимают модели от других пользователей;
Формируют Distributed Hash Table, чтобы узнать модели друг друга. Это тот же тип протокола, который использует в распространении файлов BitTorrent

Hivemind использует Kademlia-based DHT, который масштабируется на десятки тысяч пользователей с логарифмической сложностью поиска.