PandasAI – библиотека, позволяющая выполнить базовый анализ данных с помощью запросов на естественном языке. Пользователь указывает один или несколько датафреймов и текстовый запрос, а ответ получает в форме нового датафрейма, числа или графика.
Возможности PandasAI
PandasAI предлагается использовать в дополнение к стандартной Pandas. Для работы с библиотекой необходимо указать ключ OpenAI API или Google PaLM. Языковая модель автоматически распознает контекст по названию полей используемых датафреймов, а при использовании нескольких датафреймов сама определяет ключи их соединения. Например, можно запросить выполнение агрегации по нескольким записям, удовлетворяющим определенным условиям:
PandasAI выводит результат в одном из трех форматов: датафрейм, число или график. Дополнительные функции библиотеки (называемые shortcuts) позволяют заполнить пропущенные значения, сгенерировать признаки, построить матрицу неточностей, ROC-кривую и скользящие метрики, а также выполнить сегментацию записей по какому-либо набору полей.
Результат выполнения запроса в виде датафрейма можно использовать для последующего запроса, реализуя цепочку команд. Для защиты данных в языковую модель отправляются только 5 строк каждого датафрейма, содержащего рандомизированные значения полей с чувствительными данными и перемешанные значения остальных полей. Однако по желанию пользователь может отправлять в модель только названия полей.
Библиотека доступна по ссылке.
Ограничения Pandas AI
При использовании Pandas AI следует учитывать его ограничения.
Одно из ограничений состоит в том, что Pandas AI иногда может создавать неточные графики. Хотя он правильно вычисляет значения, сгенерированные графики не всегда соответствуют ожидаемым результатам. Эта проблема может возникать, когда Pandas AI должен выполнять вычисления и создавать графики одновременно. Важно проверять результаты и сопоставлять их с исходным набором данных.
Еще одно ограничение заключается в том, что Pandas AI предоставляет текстовый вывод для сводных таблиц вместо генерации фактической таблицы. Например, когда мы просим Pandas AI создать сводную таблицу, он возвращает результаты в виде текста, что затрудняет дальнейшие операции или создание графиков на основе сводной таблицы. Хотя библиотека все равно может предоставлять правильные значения, она может не предоставлять желаемый формат для всех сценариев.