Исследователи из AllenAI опубликовали на Kaggle датасет с 29 тысячами открытых научных статей о COVID-19. Для COVID-19 Open Research Dataset доступны 10 соревнований в области обработки естественного языка.
Описание датасета
В ответ на пандемию COVID-19 Белый дом в сотрудничестве с исследовательскими организациями подготовили датасет COVID-19 Open Research Dataset (CORD-19). CORD-19 состоит из 29 тысяч открытых научных исследований, посвященных и относящихся к вирусу. Для 13 тысяч из них доступен полный текст работы. Общая цель заключается в том, что бы применить NLP техники для обобщения знаний из существующих академических работ.
CORD-19 на данный момент является самым полным публичным датасетом с научными статьями о коронавирусе. Сейчас доступны 10 контестов, который сформулировали на основе материалов NASEM’s SCIED и Всемирной организации здравоохранения. Kaggle спонсирует каждую задачу призом в 1 тысячу долларов.
Команда исследователей регулярно пополняет датасет. Информация о том, как получить доступ к последней копии, открыта по ссылке.
Задачи по датасету
Текущий набор контестов включает в себя вопросы:
- Что известно о передаче, инкубационном периоде и стабильности среды;
- Факторы риска COVID-19;
- Влияние географических характеристик на распространение вируса;
- Генетика, корни и эволюция вируса;
- Этические и социальные вопросы распространения вируса;
- Методы диагностирования и наблюдения;
- Вакцины и терапия;
- Уход со стороны медиков;
- Распространение информации и взаимодействие экспертов из разных сфер