Gretel: крупнейший открытый Text-to-SQL датасет

gretel dataset sql

Стартап Gretel, специализирующийся на генерации высококачественных синтетических данных, объявил о создании крупнейшего открытого text-to-SQL датасета, нацеленного на ускорение развития no-code инструментов аналитики.

Датасет содержит более 100 000 корректных синтетических образцов преобразования текста в SQL, охватывающих типичные запросы 100 направлений бизнеса и промышленности.

Датасет создан с использованием Gretel Navigator, открытой системы искусственного интеллекта, объединяющей набор агентов, выполняющих код, несколько проприетарных моделей, включая пользовательскую табличную языковую модель, и технологии, повышающие конфиденциальность, для создания высококачественных синтетических данных с нуля по запросу.

В независимой ручной проверке Gretel превзошел датасет b-mc2/sql-create-context по таким критериям оценки, как соответствие стандартам SQL (+54,6%), корректность SQL-запросов (+34,5%) и соответствие текстовому запросу (+8,5%).

Помимо пар текстовый запрос—SQL-запрос датасет содержит пояснения, в котором на простом английском языке дается описание SQL-кода, что облегчает конечным пользователям понимание и извлечение пользы из результатов, а также дополнительные атрибуты сложности и типа запроса.

Gretel содержит все конструкции, встречающиеся в SQL, включая подзапросы, джойны, агрегацию, оконные функции и оператор set.

Датасет доступен на Hugging Face под лицензией Apache 2.0.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt