AraNet: инструмент для анализа данных из социальных сетей на арабском

AraNet — это набор предобученных NLP моделей для работы с данными на арабском языке. В AraNet доступны датасеты из социальных сетей на арабском, чтобы обучать двусторонние энкодеры предсказывать возраст, диалект, гендер, эмоции, иронию и сентимент. Это первый набор моделей, которые решают такой широкий спектр NLP задач для арабского языка. AraNet можно использовать как из командной строки, так и как библиотеку через Python.

Задачи и модели из AraNet

Для предсказания гендера, возраста, эмоций, диалекта, иронии и сентимента исследователи используют BERT архитектуру в supervised сеттинге. Это значит, что для каждой задачи есть набор размеченных данных, на которых модель обучается и тестируется. BERT — это state-of-the-art нейросетевой подход для решения NLP задач.

Предсказание возраста и гендера

Чтобы решить задачи предсказания возраста и гендера, исследователи используют датасеты Arab-Tweet и UBC Twitter Gender Dataset. Arab-Tweet — это датасет с постами из Твиттера пользователей, которые проживают в 11 арабских регионах 17 разных стран. Для каждого региона собрали все посты 100 пользователей. Чтобы попасть в выборку, пользователь должен был запостить не менее 2 тысяч твитов.

В UBC Twitter Gender Dataset вручную разметили гендер 1,989 пользователей из 21 арабской страны. Всего в датасете 1,246 пользователей-мужчин, 528 пользователей-женщин и 215 неизвестных пользователей. Для пользователей-мужчин количество твитов составило 69,509, а для пользователей-женщин — 67,511.

Предсказание диалекта

Для задачи предсказания диалекта исследователи использовали данные MADAR.

Распознавание эмоции

Чтобы предсказывать эмоции на основе текста, были выбраны два набора данных: LAMA-DINA и LAMA-DIST. Оба эти датасета содержат размеченные твиты пользователей из арабских стран.

Ирония

BERT обучали определять иронию в тексте с помощью данных от IDAT@FIRE2019. Датасет содержит 5,030 твитов про политические проблемы и события в Средней Азии. Твиты были собраны с 2011 по 2018.

Сентимент

Для анализа сентимента в тексте, исследователи аккумулировали 15 датасетов на арабском. Эти датасеты включали разные типы сентимент анализа: бинарную классификацию (негативный или позитивный сентимент), классификацию с тремя классами (добавился нейтральный класс) и субъективную оценку языка.