ANLI: датасет от FAIR для обучения робастных NLP-моделей

4 июля 2020

ANLI: датасет от FAIR для обучения робастных NLP-моделей

ANLI (Adversarial Natural Language Inference) — это датасет от FAIR для обучения более робастных NLP-моделей. Задача natural language inference тестирует модель на то, как хорошо модель понимает язык. Цель заключается…

30 самых крупных датасетов для машинного обучения в TensorFlow

3 июля 2020

30 самых крупных датасетов для машинного обучения в TensorFlow

TensorFlow — это одна из наиболее популярных открытых библиотек с датасетами для задач машинного обучения. Разработкой TensorFlow занимаются исследователи из Google Brain. Библиотека предоставляет доступ к датасетам с изображениями, видео,…

EPIC-Kitchens: датасет с видеозаписями действий от первого лица

29 июня 2020

EPIC-Kitchens: датасет с видеозаписями действий от первого лица

EPIC-Kitchens — это набор видеозаписей, снятых от первого лица, где люди выполняют действия на кухне. Визуальный ряд сопровождается нарративом от актора, в котором озвучивается каждое действие. Всего данные состоят из…

Sequencer: алгоритм ищет зависимости в данных

29 июня 2020

Sequencer: алгоритм ищет зависимости в данных

Sequencer — это алгоритм, который автоматически извлекает основные закономерности в данных. Для этого Sequencer переупорядочивает набор объектов, чтобы получить наиболее длинное многообразие, описывающее сходства объектов. Алгоритм использует четыре разные метрики.…

Hateful Memes: контест по распознаванию оскорбительных мемов от FAIR

23 мая 2020

Hateful Memes: контест по распознаванию оскорбительных мемов от FAIR

Hateful Memes датасет состоит более чем из 10 тысяч примеров оскорбительных мемов. Разработкой датасета занимались исследователи из Facebook AI. FAIR лицензировали изображения из Getty Images, чтобы исследователи могли использовать датасет…

Facebook опубликовали среду для обучения RL-агентов

14 мая 2020

Facebook опубликовали среду для обучения RL-агентов

Facebook опубликовали среду для обучения RL-агентов на основе игры NetHack.  NetHack — это игра в терминале, которая схожа с Minecraft. Среда NetHack Learning Environment (NLE) использует версию 3.6.6 игры. NLE…

SCITLDR: датасет для суммаризации научных статей

7 мая 2020

SCITLDR: датасет для суммаризации научных статей

В AllenAI предложили новую задачу по автоматической генерации кратких выдержек из научных статей. Чтобы облегчить исследования на эту тему, исследователи опубликовали датасет SCITLDR. Датасет содержит 3.9 тысячи выдержки. Для каждой…

Mapillary опубликовали датасет для распознавания мест

6 мая 2020

Mapillary опубликовали датасет для распознавания мест

Mapillary Street-level Sequences Dataset (MSLS) — это самый крупный датасет с изображениями для предсказания мест. Датасет содержит 1.6 миллионов изображений, для каждого из которых доступны метаданные местности. Изображения мест снимали…

StereoSet: датасет для обучения непредвзятых языковых моделей

29 апреля 2020

StereoSet: датасет для обучения непредвзятых языковых моделей

StereoSet — это датасет для тестирования предобученной языковой модели на непредвзятость. Модель тестируется на наличие стереотипов о гендере, профессии, расе и религии. Языковые модели отражают реальность. Они обучаются на корпусах…

Yoga-82: датасет для классификации позы человека на изображении

27 апреля 2020

Yoga-82: датасет для классификации позы человека на изображении

Yoga-82 — это датасет для классификации позы человека на изображении. Данные состоят из изображений с людьми, которые занимаются йогой. Всего в датасете 82 класса, которые отражают позы из йоги. На…

Waymo используют аугментацию данных для обучения беспилотных автомобилей

17 апреля 2020

Waymo используют аугментацию данных для обучения беспилотных автомобилей

Чтобы беспилотный автомобиль безопасно передвигался по дороге, система в автомобиле собирает данные с камер, лидаров и радаров. Ситуации, с которыми автомобиль сталкивается в реальности и в симуляции, используются для обучения…

TartanAir: датасет для обучения роботов передвижению

15 апреля 2020

TartanAir: датасет для обучения роботов передвижению

TartanAir — это датасет для обучения робота передвижению. Датасет состоит из мультимодальных данных сенсоров и разметки, которая включает в себя RGB изображения, карты глубины, сегментацию, оптический поток, позиции камер и…

Google AI опубликовали датасет для восстановления 3D формы зданий

7 апреля 2020

Google AI опубликовали датасет для восстановления 3D формы зданий

Исследователи опубликовали датасет с неструктурированными изображениями культурных объектов. Он включает в себя 25 тысяч изображений, каждое из которых содержит информацию о местоположении и наклоне. Данные собирали из открытых источников в…

Taskmaster-2: датасет с диалогами от Google Research

30 марта 2020

Taskmaster-2: датасет с диалогами от Google Research

Taskmaster-2 — это датасет с 17,289 диалогов на 7 тем: рестораны, заказ еды, кино, отели, полеты, музыка и спорт. Все диалоги в датасете собирали с помощью системы Wizard of Oz…

AllenAI опубликовали 10 соревнований по обработке исследований о COVID-19

17 марта 2020

AllenAI опубликовали 10 соревнований по обработке исследований о COVID-19

Исследователи из AllenAI опубликовали на Kaggle датасет с 29 тысячами открытых научных статей о COVID-19. Для COVID-19 Open Research Dataset доступны 10 соревнований в области обработки естественного языка.  Описание датасета…

DroneVehicle: датасет для подсчета объектов на изображениях с дрона

15 марта 2020

DroneVehicle: датасет для подсчета объектов на изображениях с дрона

DroneVehicle — это датасет с 15,532 RGB снимками с дронов. Для каждого изображения есть инфракрасный снимок. Разметка объектов доступна и для RGB, и для инфракрасных снимков. В датасете размечены направленные…

Lexikon: внутренняя система рекомендации датасетов в Spotify

3 марта 2020

Lexikon: внутренняя система рекомендации датасетов в Spotify

Lexikon — это внутренняя рекомендательная система датасетов в Spotify. Цель Lexikon заключается в том, чтобы облегчить поиск данных для сотрудников, которые занимаются анализом данных. Мотивация для создания Lexikon В 2016…

Open Images V6: Google AI обновили самый крупный датасет для компьютерного зрения

2 марта 2020

Open Images V6: Google AI обновили самый крупный датасет для компьютерного зрения

Google AI опубликовали шестую версию датасета Open Images, — Open Images V6. В Open Images добавили разметку взаимосвязей объектов на изображении, человеческих действий и лейблы изображений. Помимо этого, в шестой…

Annotate.online: платформа для автоматизации разметки данных

25 февраля 2020

Annotate.online: платформа для автоматизации разметки данных

Annotate.online — это платформа для автоматизации процесса разметки данных. Разметка данных для обучения моделей является ресурсоемких процессом. Это особенно актуально для задач компьютерного зрения. SuperAnnotate разработали инструмент, который облегчает ручную…

CCMatrix: FAIR опубликовали датасет для обучения моделей машинного перевода

8 февраля 2020

CCMatrix: FAIR опубликовали датасет для обучения моделей машинного перевода

CCMatrix — это самый крупный датасет параллельных текстов для обучения моделей машинного перевода. Данные включают в себя 4.5 миллиарда параллельных предложений на 576 пар языков. Предложения собирали из открытого датасета…

BREAK: данные, чтобы обучить нейросеть понимать суть вопроса

4 февраля 2020

BREAK: данные, чтобы обучить нейросеть понимать суть вопроса

BREAK — это датасет для решения задачи понимания сути вопроса нейросетью. Он предназначен для того, чтобы модели вычленяли из комплексных вопросов сущности, которые помогут при генерации ответов. Датасет состоит из…