fbpx
  • Nlp: библиотека для задач обработки естественного языка

    Исследователи из HuggingFace опубликовали библиотеку nlp с метриками и датасетами для задач обработки естественного языка. Библиотека позволяет работать с NLP-задачами в NumPy, Pandas, PyTorch и TensorFlow.

    Подробнее про nlp

    Nlp — это легковесная и расширяемая библиотека, которая позволяет делиться и получать доступ к датасетам и метрикам оценки. Библиотека разрабатывалась специально под задачи обработки естественного языка.

    В список характеристик библиотеки входят:

    • Функциональная совместимость с Numpy, Pandas, PyTorch и Tensorflow 2;
    • Легковесное и быстрое для освоения API для Python;
    • Облегченный доступ к большим датасетам. Библиотека освобождает пользователей от ограничений RAM;
    • Кеширование, которое позволяет не обрабатывать данные несколько раз

    На текущий момент nlp предоставляет доступ к ~100 NLP датасетам и 10 метрикам оценки моделей. Инструмент разрабатывали так, что бы процесс добавления новых датасетов и метрик не был долгим.

    Изначально nlp основывается на форке TensorFlow Datasets.