GraphWorld: бенчмарк для графовых нейросетей

9 мая 2022

GraphWorld: бенчмарк для графовых нейросетей

Google AI представила бенчмарк для графовых нейросетей GraphWorld. Бенчмарк использует несколько миллионов синтетических датасетов, воспроизводящих широкий класс графов, и генерирует обобщенную оценку нейросети на основе ее тестирования на всех датасетах.…

MASSIVE: датасет Amazon для многоязычного обучения моделей

29 апреля 2022

MASSIVE: датасет Amazon для многоязычного обучения моделей

Amazon представил open-source датасет MASSIVE с переводами текстов на 51 язык. Датасет нацелен на создание моделей обработки естественного языка, которые могут быть легко обобщены на новые языки. В основе MASSIVE…

SORDI: датасет синтетических изображений производств

20 апреля 2022

SORDI: датасет синтетических изображений производств

BMW Group представила SORDI – крупнейший open-source датасет размеченных фотореалистичных изображений заводов и других производств. SORDI содержит более 800 000 изображений в 80 категориях и нацелен на развитие методов машинного…

Датасеты для генерации и анализа музыки

27 февраля 2022

Датасеты для генерации и анализа музыки

В статье приводится обзор датасетов с музыкальными произведениями. Датасеты разработаны для обучения моделей генерации, распознавания и анализа музыки. NSynth Крупнейший датасет, состоящий из 305 979 музыкальных нот, включая высоту звука,…

PyTorch-LifeStream: библиотека Сбера для обработки событийных данных

5 февраля 2022

PyTorch-LifeStream: библиотека Сбера для обработки событийных данных

Сбер опубликовал в открытом доступе PyTorch-Lifestream — библиотеку алгоритмов построения векторных представлений событийных данных. Библиотека позволяет обрабатывать терабайтные объемы таких данных, как банковские транзакции, игровые события и истории покупок. Библиотека…

В Google AI обучили робота выполнять новые для него задания

5 февраля 2022

В Google AI обучили робота выполнять новые для него задания

В исследовании Google AI продемонстрирована возможность обучения роботов выполнению задач, отсутствовавших в обучающем датасете.  Метод позволяет ускорить и упростить процесс обучения роботов. Роботы в реальном мире неизбежно столкнутся с новыми…

В OpenAI обучили модель доказывать теоремы

4 февраля 2022

В OpenAI обучили модель доказывать теоремы

OpenAI представила нейросеть, доказывающую теоремы. Модель достигла точности 41% на miniF2F — датасете школьных олимпиадных задач. Для поиска доказательств используется языковая модель, обученная по принципу обучения школьников: каждый раз, когда…

Intel анонсировала крупнейшие датасеты для распознавания речи

9 декабря 2021

Intel анонсировала крупнейшие датасеты для распознавания речи

Intel представила датасеты People’s Speech и MSWC, нацеленные на распознавание и транскрибирование разговорной речи. Оба датасета являются одними из крупнейших в своем классе и включают аудиозаписи на 59 языках. Датасет People’s Speech…

Нейросеть Google исправляет грамматические ошибки на смартфонах

5 ноября 2021

Нейросеть Google исправляет грамматические ошибки на смартфонах

На смартфонах Google Pixel 6 в клавиатуру встроено автоматическое обнаружение и исправление грамматических ошибок с помощью нейросети. Обработка текста производится в реальном времени и полностью выполняется на устройстве. Создание такой…

GoEmotions: датасет Google AI для анализа тональности текста

31 октября 2021

GoEmotions: датасет Google AI для анализа тональности текста

Датасет Google AI GoEmotions состоит из комментариев пользователей Reddit с метками их эмоциональной окраски. GoEmotions предназначен для обучения нейросетей выполнению глубокого анализа тональности текстов. Большинство существующих датасетов для классификации эмоций…

ORBIT: датасет Microsoft изображений предметов быта

20 октября 2021

ORBIT: датасет Microsoft изображений предметов быта

ORBIT — датасет Microsoft для обучения моделей распознаванию предметов по нескольким изображениям. ORBIT включает от 1 до 10 видеозаписей 468 предметов из повседневной жизни. Обычно модели распознавания объектов обучаются на…

Нейросеть обучили предсказывать аварии на дорогах

17 октября 2021

Нейросеть обучили предсказывать аварии на дорогах

Нейросеть, обученная на исторических данных и спутниковых изображениях, предсказывает вероятность аварии на определенных участках дороги со сверхвысоким разрешением. Модель планируется внедрить в навигаторы для построения более безопасных маршрутов. Ученые из…

Нейросеть обучили генерировать макияж для обхода систем распознавания лиц

4 октября 2021

Нейросеть обучили генерировать макияж для обхода систем распознавания лиц

Израильские исследователи представили модель, генерирующую макияж для обхода систем распознавания лиц. После нанесения косметики в соответствии с представленными нейросетью шаблонами лица участников эксперимента были распознаны лишь в 1,22% случаев. Генеративно-состязательная нейросеть…

Машинное обучение применили для анализа карьерного роста

20 сентября 2021

Машинное обучение применили для анализа карьерного роста

Исследователи c помощью нейросетей изучили периоды высокой активности художников, ученых и режиссеров. Полученные результаты могут использоваться для выявления и развития талантливых подростков в различных областях. В целом ряде творческих областей…

Нейросеть обучили распознавать болезнь Альцгеймера с рекордной точностью

20 сентября 2021

Нейросеть обучили распознавать болезнь Альцгеймера с рекордной точностью

Исследователи сообщили о разработке метода ранней диагностики болезни Альцгеймера по снимкам фМРТ на основе на ResNet 18. Точность модели составляет 99.99%, что является рекордным значением среди аналогичных моделей. Важность разработки…

OpenRooms: управление объектами в 3D-сценах

15 сентября 2021

OpenRooms: управление объектами в 3D-сценах

OpenRooms — open-source датасет и набор инструментов для управления объектами, материалами, освещением и другими параметрами 3D-сцен интерьеров помещений. Датасет нацелен для использования в приложениях дополненной реальности и робототехники. OpenRooms использует…

PyTorch-плагин Amazon для прямого доступа к датасетам S3

13 сентября 2021

PyTorch-плагин Amazon для прямого доступа к датасетам S3

Amazon выпустила open-source плагин для PyTorch, предназначенный для получения доступа к датасетам, хранящимся в Amazon Simple Storage Service (S3). Плагин позволяет в потоковом режиме манипулировать датасетами любого размера, устраняя необходимость…

Нейросеть обучили имитировать биологический нейрон

12 сентября 2021

Нейросеть обучили имитировать биологический нейрон

Ученые подобрали архитектуру нейросети, воспроизводящей сложность биологического нейрона с точностью 99%. Исследование позволило впервые провести сопоставление биологических и искусственных нейронов. Ключевое сходство между искусственными и биологическими нейронами состоит в том,…

EuroCity Persons: датасет дорожного трафика европейских стран

9 сентября 2021

EuroCity Persons: датасет дорожного трафика европейских стран

Датасет EuroCity Persons содержит более 47000 фотографий улиц 12 стран с аннотациями пешеходов и транспортных средств. Датасет нацелен на улучшение моделей распознавания объектов, в том числе в условиях окклюзии. EuroCity…

IceNet: прогнозирование изменения климата Арктики

9 сентября 2021

IceNet: прогнозирование изменения климата Арктики

Система на основе сверточной нейросети IceNet предсказывает состояние льдов Арктики на месяцы вперед. Инструмент позволит усовершенствовать системы раннего предупреждения, используемые для контроля безопасности животных и прибрежных поселений. Арктика — район,…

7 сайтов с общедоступными датасетами

2 сентября 2021

7 сайтов с общедоступными датасетами

В статье приводится обзор сайтов, содержащих десятки тысяч датасетов в открытом доступе. Датасеты, представленные на данных ресурсах, покрывают такие области, как здравоохранение, география, социология, безопасность, транспорт и многие другие. Google…