fbpx
  • AraNet: инструмент для анализа данных из социальных сетей на арабском

    AraNet — это набор предобученных NLP моделей для работы с данными на арабском языке. В AraNet доступны датасеты из социальных сетей на арабском, чтобы обучать двусторонние энкодеры предсказывать возраст, диалект, гендер, эмоции, иронию и сентимент. Это первый набор моделей, которые решают такой широкий спектр NLP задач для арабского языка. AraNet можно использовать как из командной строки, так и как библиотеку через Python.

    Задачи и модели из AraNet

    Для предсказания гендера, возраста, эмоций, диалекта, иронии и сентимента исследователи используют BERT архитектуру в supervised сеттинге. Это значит, что для каждой задачи есть набор размеченных данных, на которых модель обучается и тестируется. BERT — это state-of-the-art нейросетевой подход для решения NLP задач. 

    Предсказание возраста и гендера

    Чтобы решить задачи предсказания возраста и гендера, исследователи используют датасеты Arab-Tweet и UBC Twitter Gender Dataset. Arab-Tweet — это датасет с постами из Твиттера пользователей, которые проживают в 11 арабских регионах 17 разных стран. Для каждого региона собрали все посты 100 пользователей. Чтобы попасть в выборку, пользователь должен был запостить не менее 2 тысяч твитов.

    В UBC Twitter Gender Dataset вручную разметили гендер 1,989 пользователей из 21 арабской страны. Всего в датасете 1,246 пользователей-мужчин, 528 пользователей-женщин и 215 неизвестных пользователей. Для пользователей-мужчин количество твитов составило 69,509, а для пользователей-женщин — 67,511.

    Предсказание диалекта

    Для задачи предсказания диалекта исследователи использовали данные MADAR.

    Распознавание эмоции

    Чтобы предсказывать эмоции на основе текста, были выбраны два набора данных: LAMA-DINA и LAMA-DIST. Оба эти датасета содержат размеченные твиты пользователей из арабских стран.

    Ирония  

    BERT обучали определять иронию в тексте с помощью данных от IDAT@FIRE2019. Датасет содержит 5,030 твитов про политические проблемы и события в Средней Азии. Твиты были собраны с 2011 по 2018.

    Сентимент

    Для анализа сентимента в тексте, исследователи аккумулировали 15 датасетов на арабском. Эти датасеты включали разные типы сентимент анализа: бинарную классификацию (негативный или позитивный сентимент), классификацию с тремя классами (добавился нейтральный класс) и субъективную оценку языка.