Twitch Gamers — это датасет для обучения представлений графовых данных. По результатам экспериментов, датасет подходит для оценки качества моделей обучения представлений. Создатели тестировали модели на задаче классификации узлов графа.
Зачем это нужно
Сохранение близости и структурные эмбеддинги являются популярными задачами в обработке графов. Последние модели для эмбеддинга узлов графов тестируются на одних и тех же датасетах, что приводит к сомнениям в качестве предсказаний моделей. Twitch Gamers — это новый графовый датасет с множеством атрибутов, которые можно использовать в качестве целевых.
Подробнее про датасет
Twitch — это стриминговый сервис, где пользователи могут транслировать стримы своего процесса игры в компьютерную игру. Сервис позволяет пользователям подписываться друг на друга. Twitch Gamers — это сеть подписок пользователей Twitch, которую собрали с помощью публичного API сервиса.
В апреле 2018 создатели собрали самую крупную связанную компоненту этой сети с помощью метода снежного кома, начиная с пользователя Lowko. Затем датасет фильтровали в три этапа:
- У узла не должно быть отсутствующих атрибутов;
- Общие связи: отфильтровывались асимметричные связи;
- Узел — участник самой крупной связанной компоненты
После процесса фильтрации остался ненаправленный граф с одной компонентой на 168 тысяч узлов и 6.79 миллионов связей.