Датасет LAION-5B — это один из крупнейших датасетов для машинного обучения в задачах компьютерного зрения. Он содержит более 5 миллиардов изображений и покрывает более 50 тысяч категорий. Датасет может быть использован для решения таких задач как классификация, детектирование объектов и семантическая сегментация.
Он состоит из двух частей: LAION-5B-C и LAION-5B-F. LAION-5B-C содержит около 10 миллионов изображений, а LAION-5B-F содержит более 5 миллиардов изображений. Каждое изображение в датасете сопровождается метаданными, такими как название изображения, размер, разрешение и URL-адрес.
Читайте также: Нейросети для улучшения качества фотографий
Все изображения были автоматически собраны с различных открытых источников в Интернете с помощью методов, основанных на машинном обучении, и прошли процедуру автоматической фильтрации и классификации.
Датасет LAION-5B может быть использован для решения различных задач в компьютерном зрении, и он предоставляет исследователям и разработчикам возможность обучать модели глубокого обучения на крупномасштабных данных, что может улучшить качество и точность результатов.
Всего датасет содержит 2,32 миллиарда изображений с текстом на английском языке, 2,26 миллиарда с текстом на других языках и 1,27 миллиарда, язык текста которых не удалось определить однозначно. Метки изображений также включает несколько индексов ближайших соседей.
Для датасета разработана веб-демонстрация семантического поиска и воспроизведение клипа, обученного на основе данных.
Цель разработки датасета — демократизация мультимодальных исследований в области искусственного интеллекта. Анологичные крупномасштабные датасеты, в частности, датасет OpenAI с 400 миллионами пар, не являются общедоступными.
Датасет доступен по ссылке.