
LAION-5B — датасет пар изображение-текст, собранных в Интернете. LAION-5B содержит более 5 миллиардов пар, что делает его крупнейшим среди аналогичных датасетов.
AION-5B был собран путем парсинга датасета Common Crawl для поиска изображений с описанием. Изображения были загружены и отфильтрованы с помощью CLIP, чтобы оставить только те изображения, содержание которых соответствует их текстовому описанию.
Всего датасет содержит 2,32 миллиарда изображений с текстом на английском языке, 2,26 миллиарда с текстом на других языках и 1,27 миллиарда, язык текста которых не удалось определить однозначно. Метки изображений также включает несколько индексов ближайших соседей.
Для датасета разработана веб-демонстрация семантического поиска и воспроизведение клипа, обученного на основе данных.
Цель разработки датасета — демократизация мультимодальных исследований в области искусственного интеллекта. Анологичные крупномасштабные датасеты, в частности, датасет OpenAI с 400 миллионами пар, не являются общедоступными.
Датасет доступен по ссылке.