AraNet — это набор предобученных NLP моделей для работы с данными на арабском языке. В AraNet доступны датасеты из социальных сетей на арабском, чтобы обучать двусторонние энкодеры предсказывать возраст, диалект, гендер, эмоции, иронию и сентимент. Это первый набор моделей, которые решают такой широкий спектр NLP задач для арабского языка. AraNet можно использовать как из командной строки, так и как библиотеку через Python.
Задачи и модели из AraNet
Для предсказания гендера, возраста, эмоций, диалекта, иронии и сентимента исследователи используют BERT архитектуру в supervised сеттинге. Это значит, что для каждой задачи есть набор размеченных данных, на которых модель обучается и тестируется. BERT — это state-of-the-art нейросетевой подход для решения NLP задач.
Предсказание возраста и гендера
Чтобы решить задачи предсказания возраста и гендера, исследователи используют датасеты Arab-Tweet и UBC Twitter Gender Dataset. Arab-Tweet — это датасет с постами из Твиттера пользователей, которые проживают в 11 арабских регионах 17 разных стран. Для каждого региона собрали все посты 100 пользователей. Чтобы попасть в выборку, пользователь должен был запостить не менее 2 тысяч твитов.
В UBC Twitter Gender Dataset вручную разметили гендер 1,989 пользователей из 21 арабской страны. Всего в датасете 1,246 пользователей-мужчин, 528 пользователей-женщин и 215 неизвестных пользователей. Для пользователей-мужчин количество твитов составило 69,509, а для пользователей-женщин — 67,511.
Предсказание диалекта
Для задачи предсказания диалекта исследователи использовали данные MADAR.
Распознавание эмоции
Чтобы предсказывать эмоции на основе текста, были выбраны два набора данных: LAMA-DINA и LAMA-DIST. Оба эти датасета содержат размеченные твиты пользователей из арабских стран.
Ирония
BERT обучали определять иронию в тексте с помощью данных от IDAT@FIRE2019. Датасет содержит 5,030 твитов про политические проблемы и события в Средней Азии. Твиты были собраны с 2011 по 2018.
Сентимент
Для анализа сентимента в тексте, исследователи аккумулировали 15 датасетов на арабском. Эти датасеты включали разные типы сентимент анализа: бинарную классификацию (негативный или позитивный сентимент), классификацию с тремя классами (добавился нейтральный класс) и субъективную оценку языка.