MASSIVE: датасет Amazon для многоязычного обучения моделей

29 апреля 2022

MASSIVE: датасет Amazon для многоязычного обучения моделей

Amazon представил open-source датасет MASSIVE с переводами текстов на 51 язык. Датасет нацелен на создание моделей обработки естественного языка, которые могут быть легко обобщены на новые языки. В основе MASSIVE…

SORDI: датасет синтетических изображений производств

20 апреля 2022

SORDI: датасет синтетических изображений производств

BMW Group представила SORDI – крупнейший open-source датасет размеченных фотореалистичных изображений заводов и других производств. SORDI содержит более 800 000 изображений в 80 категориях и нацелен на развитие методов машинного…

Генератор синтетических изображений для обучения моделей классификации

4 апреля 2022

Генератор синтетических изображений для обучения моделей классификации

Исследователи MIT разработали метод, в котором контролируемая модель генерации синтетических изображений интегрируется в модель классификации. Метод позволяет сократить затраты на сбор крупномасштабных датасетов. Создание датасетов для классификации может стоить миллионы…

PyTorch-LifeStream: библиотека Сбера для обработки событийных данных

5 февраля 2022

PyTorch-LifeStream: библиотека Сбера для обработки событийных данных

Сбер опубликовал в открытом доступе PyTorch-Lifestream — библиотеку алгоритмов построения векторных представлений событийных данных. Библиотека позволяет обрабатывать терабайтные объемы таких данных, как банковские транзакции, игровые события и истории покупок. Библиотека…

Intel анонсировала крупнейшие датасеты для распознавания речи

9 декабря 2021

Intel анонсировала крупнейшие датасеты для распознавания речи

Intel представила датасеты People’s Speech и MSWC, нацеленные на распознавание и транскрибирование разговорной речи. Оба датасета являются одними из крупнейших в своем классе и включают аудиозаписи на 59 языках. Датасет People’s Speech…

Commonsense-Dialogues: датасет Amazon повседневных диалогов

12 ноября 2021

Commonsense-Dialogues: датасет Amazon повседневных диалогов

Commonsense-Dialogues — датасет Amazon, содержащий 11 000 диалогов из повседневной жизни. Датасет нацелен на обучение моделей понимать скрытые смыслы реплик. На сегодняшний день ИИ-ассистенты плохо справляются с распознаванием эмоций и…

ControlFlag: инструмент Intel автоматической отладки кода

25 октября 2021

ControlFlag: инструмент Intel автоматической отладки кода

Intel выложила в открытый доступ ControlFlag — инструмент на основе машинного обучения, автоматически выявляющего ошибки в коде. ControlFlag уже нашел ошибки в кодах, используемых несколько миллиардов раз в день. Согласно…

AIMI: база датасетов медицинских изображений

20 сентября 2021

AIMI: база датасетов медицинских изображений

Кембриджский университет объединился с Microsoft AI для разработки крупнейшей open-source платформы датасетов медицинских изображений AIMI. В AIMI уже представлено более 1 миллиона изображений, и это число удвоится в течение года.…

OpenRooms: управление объектами в 3D-сценах

15 сентября 2021

OpenRooms: управление объектами в 3D-сценах

OpenRooms — open-source датасет и набор инструментов для управления объектами, материалами, освещением и другими параметрами 3D-сцен интерьеров помещений. Датасет нацелен для использования в приложениях дополненной реальности и робототехники. OpenRooms использует…

Cyberdog: робот Xiaomi c открытым исходным кодом

15 августа 2021

Cyberdog: робот Xiaomi c открытым исходным кодом

Xiaomi представила Cyberdog — робота с открытым исходным кодом, управляемого с помощью голосовых команд. Cyberdog стоит 1500 долларов и управляется c помощью NVIDIA Jetson Xavier NX, мини-суперкомпьютера для роботов. Робот…

Triton 1.0: язык программирования GPU для нейросетей

7 августа 2021

Triton 1.0: язык программирования GPU для нейросетей

OpenAI представила Triton 1.0 — open-source язык программирования графических процессоров. Triton схож с Python и позволяет не имеющим опыта работы с CUDA пользователям писать высокоэффективный код. Triton, впервые представленный в…

Python-библиотеки для визуализации выполнения кода

30 июня 2021

Python-библиотеки для визуализации выполнения кода

В статье приводится обзор трех open-source библиотек Python, которые могут помочь разработчикам наглядно визуализировать выполнение кода. Эти библиотеки являются более простыми в установке и использовании аналогами модуля Logging. Pyheat Pyheat…

TextBlob и VADER: библиотеки для анализа тональности текстов

8 июня 2021

TextBlob и VADER: библиотеки для анализа тональности текстов

В естественном языке присутствуют идиомы, сарказм и другие приемы, затрудняющие распознавание смысла текстов нейросетями. Библиотеки TextBlob и VADER позволяют с помощью нескольких строк кода оценить тональность текстов. Разберем работу с…

Google Brain разработали MLP-Mixer, архитектуру компьютерного зрения на основе многослойных перцептронов

11 мая 2021

Google Brain разработали MLP-Mixer, архитектуру компьютерного зрения на основе многослойных перцептронов

MLP-Mixer — архитектура от Google Brain, которая показала высокие результаты в компьютерном зрении, используя только линейные слои. Является сопоставимой альтернативой свёрточным нейросетям и трансформерам. Код доступен на Github. Зачем это…

FAIR разработали архитектуру DINO для анализа изображений без лейблов

3 мая 2021

FAIR разработали архитектуру DINO для анализа изображений без лейблов

DINO — инструмент от FAIR для самообучения современных моделей Visual Transformer. Фреймворк эффективно справляется с самостоятельным выделением важного содержимого на изображениях без лейблов. Код в открытом доступе. Зачем это нужно…

TextFlint: библиотека для анализа устойчивости NLP-моделей

8 апреля 2021

TextFlint: библиотека для анализа устойчивости NLP-моделей

TextFlint – мультиязычная, многозадачная платформа для анализа устойчивости NLP-моделей. В открытом доступе для английского и китайского языков, другие языки разрабатываются. Включает инструменты обработки текста:  общие и специфические преобразования текста; выделение…

Facebook представила фреймворк PyTorch BigGraph

4 апреля 2019
pytorch bigraph

Facebook представила фреймворк PyTorch BigGraph

На конференции SysML компания Facebook представила PyTorch BigGraph (PBG) — распределенную систему для обучения векторного представления графов. Особенность этой системы в том, что она рассчитана на большие графы, содержащие до…

Uber открыла доступ к своему фреймворку глубокого обучения Ludwig

12 февраля 2019
ludwig uber

Uber открыла доступ к своему фреймворку глубокого обучения Ludwig

Компания Uber открыла доступ к фреймворку глубокого обучения Ludwig, который позволяет создавать модели без написания кода. Ludwig создан на базе TensorFlow и должен помочь опытным разработчикам быстрее улучшать модели, а также сделать машинное обучение…

Hotels-50K: датасет с миллионом фотографий номеров отелей

7 февраля 2019

Hotels-50K: датасет с миллионом фотографий номеров отелей

Датасет Hotels-50K содержит миллион изображений из 50 000 отелей в разных странах. Датасет c номерами отелей создан с целью сопоставлять фотографии со снимками жертв human traffic (торговли людьми) из незаконной онлайн-рекламы,…

Предобученные модели распознавания эмоций EmoPy выложили в открытый доступ

10 января 2019
EmoPy распознавание эмоций

Предобученные модели распознавания эмоций EmoPy выложили в открытый доступ

EmoPy — набор инструментов для распознавания эмоций на Python, который содержит несколько моделей с открытым исходным кодом, показывающих точность до 92% для трех эмоций и 68% для семи. Модели предлагается…

Open source инструмент на Python для выбора признаков нейронной сети

11 декабря 2018
выбор признаков нейронной сети питон

Open source инструмент на Python для выбора признаков нейронной сети

Поиск и выбор наиболее полезных признаков в датасете — одна из наиболее важных частей машинного обучения. Ненужные признаки уменьшают скорость обучения, ухудшают возможности интерпретации результатов и, что самое важное, уменьшают…