Нейросеть учится отвечать на открытые вопросы

28 июля 2019

Нейросеть учится отвечать на открытые вопросы

Facebook AI представили новую задачу по обработке естественного языка — ответы на открытые вопросы. Исследователи выложили в открытый доступ данные, код и результаты базовых моделей. Чтобы поспособствовать развитию умных ассистентов…

ImageNet-A: как снизить точность предсказаний нейросети на 90%

27 июля 2019

ImageNet-A: как снизить точность предсказаний нейросети на 90%

ImageNet-A — это датасет с примерами изображений, которые нейросеть не может классифицировать верно. По результатам, модели предсказывали объекты из датасета с точностью в 3%. В то время как для стандартного…

CellSignal: соревнование по детекции шума на изображениях клеток

27 июля 2019

CellSignal: соревнование по детекции шума на изображениях клеток

Компания Recursion, которая занимается применением машинного обучения для разработки лекарств, опубликовала датасет RxRx1. RxRx1 содержит в себе 296 гигабайт изображений с микроскопа. Компания запустила соревнование на Kaggle по распознаванию технического…

Google открыли соревнование по сегментации изображений

14 июля 2019
google brain bert ai

Google открыли соревнование по сегментации изображений

Google запустили второе соревнование по компьютерному зрению на Kaggle — Open Images 2019. Соревнование делится на три трека: распознавание объектов, выявление взаимосвязей между объектами и instance сегментация объектов. Участие можно…

CoS-E: датасет для обучения нейросетей здравому смыслу

13 июля 2019

CoS-E: датасет для обучения нейросетей здравому смыслу

CoS-E — датасет, который состоит из описания обыденных случаев и объяснений к ним. Датасет собирали исследователи из Salesforce. Данные доступны по ссылке. Примеры из датасета. Единица данных состоит из вопроса,…

YouTube-8M Segments: датасет с видеозаписями из YouTube

29 июня 2019

YouTube-8M Segments: датасет с видеозаписями из YouTube

YouTube-8M — это датасет с видеозаписями из YouTube, который собрали в Google. В обновленной версии датасета для части видеозаписей разметили содержание видео в динамике. Компания запустила соревнование по анализу видеоданных…

Waymo публикует данные для обучения автопилотных автомобилей

24 июня 2019

Waymo публикует данные для обучения автопилотных автомобилей

Waymo публикуют датасет для обучения моделей автопилотных автомобилей. Датасет будет включать в  себя видеозаписи вождения с размеченными объектами. Компания Waymo разрабатывает автопилотные автомобили с 2009 года и входит в группу…

MineRL: датасет с демонстрациями игры в Minecraft для решения RL задач

13 мая 2019

MineRL: датасет с демонстрациями игры в Minecraft для решения RL задач

Исследователи из Microsoft, CMU и других университетов опубликовали датасет с записями игр в Minecraft. Соревнование открывается 1-го июня и длится до 25-го октября. Участникам предлагается обучить модель, которая сумела бы…

Google AI расширила датасет для распознавания достопримечательностей

9 мая 2019
Достопримечательности из датасета

Google AI расширила датасет для распознавания достопримечательностей

Google AI выпустила Google-Landmarks-v2, вторую версию крупнейшего датасета для распознавания достопримечательностей , расширив его до 5 миллионов изображений (в 2 раза). Особенностью датасета стало количество достопримечательностей — более 200 тысяч…

Российский Speech-to-text датасет (STT/ASR)

8 мая 2019
Российский Speech-to-text датасет

Российский Speech-to-text датасет (STT/ASR)

Группа российских разработчиков выпустила свободный датасет speech-to-text на русском языке, содержащий более 4000 тысяч часов записей с голосом для исследователей и разработчиков приложений с распознаванием речи. В ближайшее время создатели…

ProductNet: датасет изображений товаров от Amazon

30 апреля 2019

ProductNet: датасет изображений товаров от Amazon

Исследователи из Amazon опубликовали аналог датасета ImageNet для товаров. Изображения товаров систематизированы и представлены в высоком разрешении. ProductNet создан с целью улучшить обучение представлений товаров. Помимо датасета, исследователи опубликовали модель,…

MRNet: датасет МРТ-снимков коленных суставов

24 апреля 2019
коленный сустав

MRNet: датасет МРТ-снимков коленных суставов

Stanford ML Group выпустила свой третий публичный датасет медицинских обследований, названный MRNet, который можно найти здесь. Чтобы получить его, сначала вы должны зарегистрировать учетную запись в Stanford ML Group, а…

DeepMind объявила конкурс по созданию нейросетей, решающих математические задачи

8 апреля 2019
deepmind maths challenge

DeepMind объявила конкурс по созданию нейросетей, решающих математические задачи

Исследователи из DeepMind открыли доступ к датасету математических задач и ответов к ним и проверили то, как существующие архитектуры справляются с предсказанием ответа на математическую задачу. В будущем это может…

Mozilla опубликовала крупнейший набор данных голосов на 18 языках

1 марта 2019

Mozilla опубликовала крупнейший набор данных голосов на 18 языках

Mozilla опубликовала открытый датасет Common Voice, который содержит 1400 часов записей человеческой речи на 18 языках, включая английский, французский, немецкий и редкие языки — валлийский, кабильский и другие. Это самый…

В TensorFlow появилась функция преобразования датасетов в формат tf.data

28 февраля 2019

В TensorFlow появилась функция преобразования датасетов в формат tf.data

Разработчики Google представили функцию TensorFlow Datasets для преобразования любых общедоступных наборов данных в формат tf.data. Открытые наборы данных для обучения моделей распространяются и хранятся в разных форматах. Написание скриптов для загрузки и…

Hotels-50K: датасет с миллионом фотографий номеров отелей

7 февраля 2019

Hotels-50K: датасет с миллионом фотографий номеров отелей

Датасет Hotels-50K содержит миллион изображений из 50 000 отелей в разных странах. Датасет c номерами отелей создан с целью сопоставлять фотографии со снимками жертв human traffic (торговли людьми) из незаконной онлайн-рекламы,…

FaceForencis — крупнейший датасет для распознавания фейковых фото и видео

5 февраля 2019
FaceForencis датасет

FaceForencis — крупнейший датасет для распознавания фейковых фото и видео

FaceForencis — набор данных изображений, созданных с использованием методов Face2Face, FaceSwap и DeepFakes. Данные собраны исследователями из Италии и Германии, чтобы улучшить точность моделей распознавания поддельных фото. Кроме набора данных…

Diversity in Faces — датасет от IBM с миллионом лиц для борьбы с предвзятостью алгоритмов

30 января 2019
diversity faces dataset ibm

Diversity in Faces — датасет от IBM с миллионом лиц для борьбы с предвзятостью алгоритмов

Diversity in Faces — большой и разнообразный набор данных, который содержит миллион изображений размеченных лиц людей. Открывая доступ к датасету, в IBM Research надеются повысить точность распознавания лиц людей разных…

RobotriX — датасет для обучения роботов взаимодействию с объектами в помещениях

29 января 2019

RobotriX — датасет для обучения роботов взаимодействию с объектами в помещениях

RobotriX — новый датасет для обучения роботов взаимодействию с объектами в помещениях. Набор данных состоит из гиперреалистичных внутренних сцен, которые исследуются агентами-роботами. Роботы реалистично взаимодействуют с объектами в моделируемом мире. Сцены…

18 млн изображений и 11 000 классов: Tencent опубликовала крупнейший размеченный датасет

15 января 2019
Tencent ML images

18 млн изображений и 11 000 классов: Tencent опубликовала крупнейший размеченный датасет

Компания Tecent выложила в открытый доступ датасет Tencent ML-Images с 11 тысячами классов и 18 миллионами изображений, каждое из которых содержит в среднем 8 меток. На GitHub доступна предобученная модель…

Датасеты для отслеживания объектов на видео

16 ноября 2018

Датасеты для отслеживания объектов на видео

Глубокое обучение лежит в основе работы современных трекеров объектов в видеопотоке. Однако до сих пор существует недостаток больших датасетов для обучения алгоритмов отслеживания. Известные наборы данных (например, VOT и OTB) относительно…