Google Imagen: генерация фотореалистичных изображений по описанию

29 мая 2022

Google Imagen: генерация фотореалистичных изображений по описанию

Google представила Imagen — модель, трансформирующую текстовое описание в изображение c разрешением 1024×1024 пикселей. Imagen превзошла OpenAI DALL-E 2 по степени реалистичности изображений. Imagen является комбинацией языковых моделей-трансформеров, используемых для…

Lang: анализ диалогов клиентов со службой поддержки

28 мая 2022

Lang: анализ диалогов клиентов со службой поддержки

Стартап Lang разработал систему, которая интегрируется со службой поддержки и CRM для автоматического распознавания темы разговора и выявления трендов в причинах обращений клиентов. Инструмент использует неконтролируемую модель обучения для адаптации…

LAION-5B: крупнейший датасет пар изображение-текст

28 мая 2022

LAION-5B: крупнейший датасет пар изображение-текст

LAION-5B — датасет пар изображение-текст, собранных в Интернете. LAION-5B содержит более 5 миллиардов пар, что делает его крупнейшим среди аналогичных датасетов. AION-5B был собран путем парсинга датасета Common Crawl для…

Deepmind представила универсальную модель Gato

28 мая 2022

Deepmind представила универсальную модель Gato

DeepMind представила кросс-модальную универсальную модель с 1.2 миллиардами параметров Gato. Gato может выполнять более 600 задач, таких как воспроизведение видеоигр, создание субтитров к изображениям и управление роботами. DeepMind обучила Gato…

Mastercard запустила тестирование оплаты по биометрии

28 мая 2022

Mastercard запустила тестирование оплаты по биометрии

Mastercard начала тестирование программы для розничных магазинов, предлагающей оплату покупок с помощью распознавания лиц или сканирования отпечатков пальцев. Компания планирует в ближайшие годы развернуть новую схему оплаты на весь мир…

Модель обучили выполнять кросс-модальный поиск действий

9 мая 2022

Модель обучили выполнять кросс-модальный поиск действий

В MIT разработали модель кросс-модального поиска действий в текстовом, аудио- и видеоконтенте. Модель позволяет определить, где в видео происходит определенное действие, и идентифицировать его. Алгоритм обучен представлять данные таким образом,…

Flamingo: мультимодальная модель DeepMind

9 мая 2022

Flamingo: мультимодальная модель DeepMind

Flamingo – мультимодальная модель DeepMind, генерирующая текстовое описание фото, видео и звуков. Модель превосходит предыдущие state-of-the-art модели в 16 задачах, а ее особенностью является возможность обучаться на нескольких примерах. Обычно…

GraphWorld: бенчмарк для графовых нейросетей

9 мая 2022

GraphWorld: бенчмарк для графовых нейросетей

Google AI представила бенчмарк для графовых нейросетей GraphWorld. Бенчмарк использует несколько миллионов синтетических датасетов, воспроизводящих широкий класс графов, и генерирует обобщенную оценку нейросети на основе ее тестирования на всех датасетах.…

Израильский стартап упрощает найм сотрудников с использованием обработки естественного языка

9 мая 2022

Израильский стартап упрощает найм сотрудников с использованием обработки естественного языка

Myinterview – израильский стартап, разрабатывающий инструменты машинного обучения для ускорения и упрощения процессов найма для компаний. Платформа Myinterview расшифровывает видеоинтервью кандидатов, оценивает их навыки и выставляет оценку. Основатели утверждают, что…

Google Cloud Manufacturing: расширенная аналитика на производствах

9 мая 2022

Google Cloud Manufacturing: расширенная аналитика на производствах

Google и Ford разработали инструмент Google Cloud Manufacturing, нацеленный на объединение и унификацию разрозненных данных на производствах. Инструмент предоставляет возможность анализировать производственные процессы и обучать широкий класс моделей. Операции на…

Алгоритм MIT для беспилотников предсказывает траектории объектов

29 апреля 2022

Алгоритм MIT для беспилотников предсказывает траектории объектов

Исследователи MIT разработали алгоритм для повышения безопасности беспилотных автомобилей. Модель предсказывает траектории передвигающихся рядом с беспилотником участников дорожного движения в реальном времени. Современные методы анализа дорожного движения либо слишком упрощены…

MASSIVE: датасет Amazon для многоязычного обучения моделей

29 апреля 2022

MASSIVE: датасет Amazon для многоязычного обучения моделей

Amazon представил open-source датасет MASSIVE с переводами текстов на 51 язык. Датасет нацелен на создание моделей обработки естественного языка, которые могут быть легко обобщены на новые языки. В основе MASSIVE…

SORDI: датасет синтетических изображений производств

20 апреля 2022

SORDI: датасет синтетических изображений производств

BMW Group представила SORDI – крупнейший open-source датасет размеченных фотореалистичных изображений заводов и других производств. SORDI содержит более 800 000 изображений в 80 категориях и нацелен на развитие методов машинного…

Модель обучили выявлять сейсмическую активность на фоне городского шума

18 апреля 2022

Модель обучили выявлять сейсмическую активность на фоне городского шума

Исследователи Стэндфордского университета разработали алгоритм удаления фоновых шумов из данных, поступающих с датчиков сейсмической активности. Модель позволяет регистрировать в четыре раза больше сигналов землетрясений. Движение транспорта и работа производств генерируют…

Модель предсказывает риск остановки сердца на десять лет вперед

14 апреля 2022

Модель предсказывает риск остановки сердца на десять лет вперед

В университете Джона Хопкинса разработали модель, прогнозирующую на основе снимков МРТ риск остановки сердца. Исследователи утверждают, что анализ структуры рубцовой ткани позволяет делать точные прогнозы на 10 лет вперед. Рубцовая…

DALL-E 2: text-to-image модель OpenAI

13 апреля 2022

DALL-E 2: text-to-image модель OpenAI

OpenAI представила новую версию модели преобразования текста в изображение DALL-E. По сравнению с первой версией, DALL-E 2 генерирует изображения в более высоком качестве с меньшей задержкой, а также позволяет редактировать…

PaLM: языковая модель Google с 540 миллиардами параметров

8 апреля 2022

PaLM: языковая модель Google с 540 миллиардами параметров

Google представила PaLM – языковую модель с 540 миллиардами параметров. PaLM превзошла существующие языковые модели в большинстве бенчмарков. Модель обучена с использованием 6144 тензорных процессоров Google TPU на платформе параллельных…

Генератор синтетических изображений для обучения моделей классификации

4 апреля 2022

Генератор синтетических изображений для обучения моделей классификации

Исследователи MIT разработали метод, в котором контролируемая модель генерации синтетических изображений интегрируется в модель классификации. Метод позволяет сократить затраты на сбор крупномасштабных датасетов. Создание датасетов для классификации может стоить миллионы…

Jigsaw: инструмент Microsoft для работы с text-to-code моделями

1 апреля 2022

Jigsaw: инструмент Microsoft для работы с text-to-code моделями

Microsoft представила Jigsaw – инструмент откладки выдачи text-to-code моделей путем предоставления примеров выходных данных. При работе с Python Pandas инструмент позволил повысить точность Codex более чем в два раза. C…

Instant NeRF: сверхбыстрое восстановление 3D-сцен

28 марта 2022

Instant NeRF: сверхбыстрое восстановление 3D-сцен

Nvidia представила Instant NeRF – алгоритм сверхбыстрой реконструкции трехмерных сцен по нескольким изображениям. Instant NeRF нацелен на использование в системах автономного вождения и при создании метавлесенных. Алгоритм был продемонстрирован на…

Хирургический робот определяет место введения иглы

24 марта 2022

Хирургический робот определяет место введения иглы

AI-Guide – разработанный в MIT ручной хирургический робот, позволяющий автоматизировать процесс введения иглы или катетера в кровеносный сосуд. Устройство нацелено на оказание быстрой помощи в экстренных ситуациях. После несчастного случая…