fbpx
  • AllenAI опубликовали 10 соревнований по обработке исследований о COVID-19

    Исследователи из AllenAI опубликовали на Kaggle датасет с 29 тысячами открытых научных статей о COVID-19. Для COVID-19 Open Research Dataset доступны 10 соревнований в области обработки естественного языка. 

    Описание датасета

    В ответ на пандемию COVID-19 Белый дом в сотрудничестве с исследовательскими организациями подготовили датасет COVID-19 Open Research Dataset (CORD-19). CORD-19 состоит из 29 тысяч открытых научных исследований, посвященных и относящихся к вирусу. Для 13 тысяч из них доступен полный текст работы. Общая цель заключается в том, что бы применить NLP техники для обобщения знаний из существующих академических работ.

    CORD-19 на данный момент является самым полным публичным датасетом с научными статьями о коронавирусе. Сейчас доступны 10 контестов, который сформулировали на основе материалов NASEM’s SCIED и Всемирной организации здравоохранения. Kaggle спонсирует каждую задачу призом в 1 тысячу долларов.

    Команда исследователей регулярно пополняет датасет. Информация о том, как получить доступ к последней копии, открыта по ссылке.

    Задачи по датасету

    Текущий набор контестов включает в себя вопросы:

    • Что известно о передаче, инкубационном периоде и стабильности среды;
    • Факторы риска COVID-19;
    • Влияние географических характеристик на распространение вируса;
    • Генетика, корни и эволюция вируса;
    • Этические и социальные вопросы распространения вируса;
    • Методы диагностирования и наблюдения;
    • Вакцины и терапия;
    • Уход со стороны медиков;
    • Распространение информации и взаимодействие экспертов из разных сфер