LAION-5B: крупнейший датасет пар изображение-текст

Датасет LAION-5B — это один из крупнейших датасетов для машинного обучения в задачах компьютерного зрения. Он содержит более 5 миллиардов изображений и покрывает более 50 тысяч категорий. Датасет может быть использован для решения таких задач как классификация, детектирование объектов и семантическая сегментация.

Он состоит из двух частей: LAION-5B-C и LAION-5B-F. LAION-5B-C содержит около 10 миллионов изображений, а LAION-5B-F содержит более 5 миллиардов изображений. Каждое изображение в датасете сопровождается метаданными, такими как название изображения, размер, разрешение и URL-адрес.

Все изображения были автоматически собраны с различных открытых источников в Интернете с помощью методов, основанных на машинном обучении, и прошли процедуру автоматической фильтрации и классификации.

Датасет LAION-5B может быть использован для решения различных задач в компьютерном зрении, и он предоставляет исследователям и разработчикам возможность обучать модели глубокого обучения на крупномасштабных данных, что может улучшить качество и точность результатов.

laion dataset — An orange cat is looking at its reflection in the mirror.

Всего датасет содержит 2,32 миллиарда изображений с текстом на английском языке, 2,26 миллиарда с текстом на других языках и 1,27 миллиарда, язык текста которых не удалось определить однозначно. Метки изображений также включает несколько индексов ближайших соседей.

Для датасета разработана веб-демонстрация семантического поиска и воспроизведение клипа, обученного на основе данных.

Цель разработки датасета — демократизация мультимодальных исследований в области искусственного интеллекта. Анологичные крупномасштабные датасеты, в частности, датасет OpenAI с 400 миллионами пар, не являются общедоступными.

Датасет доступен по ссылке.