Стартап Gretel, специализирующийся на генерации высококачественных синтетических данных, объявил о создании крупнейшего открытого text-to-SQL датасета, нацеленного на ускорение развития no-code инструментов аналитики.
Датасет содержит более 100 000 корректных синтетических образцов преобразования текста в SQL, охватывающих типичные запросы 100 направлений бизнеса и промышленности.
Датасет создан с использованием Gretel Navigator, открытой системы искусственного интеллекта, объединяющей набор агентов, выполняющих код, несколько проприетарных моделей, включая пользовательскую табличную языковую модель, и технологии, повышающие конфиденциальность, для создания высококачественных синтетических данных с нуля по запросу.
В независимой ручной проверке Gretel превзошел датасет b-mc2/sql-create-context по таким критериям оценки, как соответствие стандартам SQL (+54,6%), корректность SQL-запросов (+34,5%) и соответствие текстовому запросу (+8,5%).
Помимо пар текстовый запрос—SQL-запрос датасет содержит пояснения, в котором на простом английском языке дается описание SQL-кода, что облегчает конечным пользователям понимание и извлечение пользы из результатов, а также дополнительные атрибуты сложности и типа запроса.
Gretel содержит все конструкции, встречающиеся в SQL, включая подзапросы, джойны, агрегацию, оконные функции и оператор set.
Датасет доступен на Hugging Face под лицензией Apache 2.0.