PandasAI: анализ данных с помощью языковых моделей

PandasAI framework

PandasAI – библиотека, позволяющая выполнить базовый анализ данных с помощью запросов на естественном языке. Пользователь указывает один или несколько датафреймов и текстовый запрос, а ответ получает в форме нового датафрейма, числа или графика.

Возможности PandasAI

PandasAI предлагается использовать в дополнение к стандартной Pandas. Для работы с библиотекой необходимо указать ключ OpenAI API или Google PaLM. Языковая модель автоматически распознает контекст по названию полей используемых датафреймов, а при использовании нескольких датафреймов сама определяет ключи их соединения. Например, можно запросить выполнение агрегации по нескольким записям, удовлетворяющим определенным условиям:

pandasai output

PandasAI выводит результат в одном из трех форматов: датафрейм, число или график. Дополнительные функции библиотеки (называемые shortcuts) позволяют заполнить пропущенные значения, сгенерировать признаки, построить матрицу неточностей, ROC-кривую и скользящие метрики, а также выполнить сегментацию записей по какому-либо набору полей.

Результат выполнения запроса в виде датафрейма можно использовать для последующего запроса, реализуя цепочку команд. Для защиты данных в языковую модель отправляются только 5 строк каждого датафрейма, содержащего рандомизированные значения полей с чувствительными данными и перемешанные значения остальных полей. Однако по желанию пользователь может отправлять в модель только названия полей.

Библиотека доступна по ссылке.

Ограничения Pandas AI

При использовании Pandas AI следует учитывать его ограничения.

Одно из ограничений состоит в том, что Pandas AI иногда может создавать неточные графики. Хотя он правильно вычисляет значения, сгенерированные графики не всегда соответствуют ожидаемым результатам. Эта проблема может возникать, когда Pandas AI должен выполнять вычисления и создавать графики одновременно. Важно проверять результаты и сопоставлять их с исходным набором данных.

Еще одно ограничение заключается в том, что Pandas AI предоставляет текстовый вывод для сводных таблиц вместо генерации фактической таблицы. Например, когда мы просим Pandas AI создать сводную таблицу, он возвращает результаты в виде текста, что затрудняет дальнейшие операции или создание графиков на основе сводной таблицы. Хотя библиотека все равно может предоставлять правильные значения, она может не предоставлять желаемый формат для всех сценариев.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt