Исследователи из HuggingFace опубликовали библиотеку nlp с метриками и датасетами для задач обработки естественного языка. Библиотека позволяет работать с NLP-задачами в NumPy, Pandas, PyTorch и TensorFlow.
Подробнее про nlp
Nlp — это легковесная и расширяемая библиотека, которая позволяет делиться и получать доступ к датасетам и метрикам оценки. Библиотека разрабатывалась специально под задачи обработки естественного языка.
В список характеристик библиотеки входят:
- Функциональная совместимость с Numpy, Pandas, PyTorch и Tensorflow 2;
- Легковесное и быстрое для освоения API для Python;
- Облегченный доступ к большим датасетам. Библиотека освобождает пользователей от ограничений RAM;
- Кеширование, которое позволяет не обрабатывать данные несколько раз
На текущий момент nlp предоставляет доступ к ~100 NLP датасетам и 10 метрикам оценки моделей. Инструмент разрабатывали так, что бы процесс добавления новых датасетов и метрик не был долгим.
Изначально nlp основывается на форке TensorFlow Datasets.