Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах

26 сентября 2024

Molmo: семейство открытых мультимодальных моделей обходит Claude 3.5 и Gemini 1.5 тестах

Molmo — семейство мультимодальных моделей Vision-Language (VLM), разработанных исследователями из Allen Institute for AI и Университета Вашингтона. Семейство моделей Molmo превосходит многие проприетарные и открытые state-of-the-art модели по результатам академических…

Модель обучили понимать язык с помощью видеозаписей

23 июня 2024
DenseAV Algorithm

Модель обучили понимать язык с помощью видеозаписей

Разработанный в MIT алгоритм DenseAV обучается понимать значение слов и предложений, просматривая видео с разговорами людей. DenseAV превзошел другие алгоритмы в задачах идентификации объектов по их названию. Исследователи решили задачу…

Hugging Face и Pollen Robotics показали Reachy2 — open-source робота для работы по дому

10 июня 2024

Hugging Face и Pollen Robotics показали Reachy2 — open-source робота для работы по дому

Hugging Face и Pollen Robotics представили антропоморфного робота Reachy2, обучающий датасет и модель которого опубликованы в открытом доступе. Reachy2 умеет выполнять домашние обязанности и безопасно взаимодействует с людьми и домашними…

Microsoft VASA-1: платформа для анимирования статичных изображений

21 апреля 2024
microsoft vasa-1

Microsoft VASA-1: платформа для анимирования статичных изображений

Microsoft представила платформу VASA-1, преобразующую изображение человека и аудиозапись с речью в видео с синхронизированными движениями губ и головы. Алгоритм работает в реальном времени со скоростью 40 кадров в секунду.…

SCIN: датасет изображений дерматологических заболеваний

25 марта 2024
google scin dataset

SCIN: датасет изображений дерматологических заболеваний

Google вместе со Stanford Medicine представила SCIN – открытый датасет с 10 000 изображениями дерматологических заболеваний. Обученные на его основе модели смогут удаленно диагностировать аллергические, воспалительные и инфекционные состояния кожи,…

В Midjourney добавили функцию переноса персонажа на новое изображение

17 марта 2024
перенос персонажа

В Midjourney добавили функцию переноса персонажа на новое изображение

В сервисе генерации изображений Midjourney появилась возможность переноса персонажа на новое изображение путем указания в запросе ссылки на уже существующее с ним изображение. Функция позволит использовать сервис для создания новых…

Pika 1.0: веб-платформа для генерации видео

7 января 2024
pika

Pika 1.0: веб-платформа для генерации видео

Стартап Pika Labs запустил Pika 1.0 – бесплатную веб-платформу для генерации и редактирования видео с помощью текстовых запросов. Сервис создает как реалистичные видео, так и 3D-анимацию в различных стилях. При…

Shopping Muse: рекомендательная система Mastercard

10 декабря 2023

Shopping Muse: рекомендательная система Mastercard

Mastercard представила Shopping Muse – модуль для интернет-магазинов в формате чат-бота, рекомендующий покупателю товары на основе его истории покупок и поиска, региона и других признаков. Shopping Muse работает на базе…

Google представила набор языковых моделей Gemini

7 декабря 2023

Google представила набор языковых моделей Gemini

Google сообщила о создании Gemini – набора из трех языковых моделей, превосходящих конкурентов в 30 из 32 бенчмарках. Старшая модель Gemini Ultra доступна через API, средняя Gemini Pro будет использоваться…

Stable Video Diffusion: генератор видео по изображению от Stability AI

26 ноября 2023
Stable Video Diffusion

Stable Video Diffusion: генератор видео по изображению от Stability AI

Компания Stability AI объявила о выпуске Stable Video Diffusion – набора из двух моделей, генерирующих видео продолжительностью до 4 секунд по входному изображению. Обе модели опубликованы в открытом доступе. Модели…

В Shutterstock добавили редактирование изображений на основе DALL-E 2

28 октября 2023

В Shutterstock добавили редактирование изображений на основе DALL-E 2

В хранилище стоковых изображений Shutterstock добавили возможность обработки изображений перед скачиванием c помощью текстовых запросов. Новые функции работают на основе OpenAI DALL-E 2 и позволяют менять угол обзора сцены, заменять…

Нейросеть применили для дистанционной диагностики неврологических расстройств

17 сентября 2023
нейросеть удаленно диагностирует неврологические расстройства

Нейросеть применили для дистанционной диагностики неврологических расстройств

Ученые MIT разработали нейросеть, которая анализирует видеозаписи пациентов с двигательными или неврологическими расстройствами и оценивает их клиническое состояние в режиме реального времени. Инструмент работает на большинстве мобильных устройств и позволяет…

Топ 10 нейросетей для генерации изображений по текстовому описанию. Рейтинг на март 2024

28 августа 2023
нейросеть для генерации изображений

Топ 10 нейросетей для генерации изображений по текстовому описанию. Рейтинг на март 2024

Какая нейросеть рисует изображения по словам с максимально качественно и с минимальными временными затратами? Мы провели исследование, чтобы выяснить, какие нейросети для генерации изображений из текста лучшие в создании фотореалистичных…

NVIDIA FlexiCubes: создание 3D-сеток с помощью гибких параметров

13 августа 2023
flexicubes

NVIDIA FlexiCubes: создание 3D-сеток с помощью гибких параметров

NVIDIA разработала FlexiCubes – метод создания 3D-сеток объектов с помощью гибких параметров. Компания утверждает, что FlexiCubes является инновационным алгоритмом, обеспечивающим высочайшее качество сеток для широкого спектра приложений. Последнее поколение алгоритмов…

Prithvi: модель и датасет NASA для анализа экологических явлений

6 августа 2023
prithvi

Prithvi: модель и датасет NASA для анализа экологических явлений

NASA и IBM представили open-source модель Prithvi, которая позволит ученым отслеживать последствия изменения климата, осуществлять мониторинг вырубки лесов, прогнозировать урожайность сельскохозяйственных культур и анализировать выбросы парниковых газов. В рамках миссии…

Нейросети, которые помогут улучшить качество фото: 8 бесплатных онлайн сервисов

2 августа 2023
ai photo enhancer

Нейросети, которые помогут улучшить качество фото: 8 бесплатных онлайн сервисов

Рассмотрим онлайн сервисы на основе нейросетей, которые улучшают качество фото бесплатно. Бесплатно можно обработать от 5 изображений всего до нескольких изображений каждый день. Если вы хотите бесплатно обрабатывать множество фотографий,…

PIGINet: генерация оптимальной последовательности действий робота

30 июля 2023
robotic tasks piginet

PIGINet: генерация оптимальной последовательности действий робота

Исследователи MIT представили PIGINet – нейросеть для обучения роботов, которая по описанию задачи, изображению сцены и текущему состоянию перебирает возможные варианты действий и выбирает их наиболее оптимальную последовательность. PIGINet нацелен…

MAGVIT: open source генеративный видео-трансформер 10 в 1

29 июня 2023
MAGVIT

MAGVIT: open source генеративный видео-трансформер 10 в 1

Исследователи из института Карнеги-Меллон, Google Research и Университета Джорджии представили open source модель генерации видео MAGVIT (Masked Generative Video Transformer). Единая модель MAGVIT способна улучшать FPS, экстраполировать кадры, создавать видео…

Uncrop: нейросеть на базе Stable Diffusion XL дорисовывает изображения

11 июня 2023
uncrop stablilityai

Uncrop: нейросеть на базе Stable Diffusion XL дорисовывает изображения

Uncrop — нейросеть, которая дорисовывает изображения онлайн в браузере на основе модели Stable Diffusion XL, специально дообученной для этой задачи. Модель анализирует содержимое загруженного изображения и генерирует визуально правдоподобное представление…

Модель обучили распознавать материалы предметов на фото

28 мая 2023
нейросеть распознает материалы на фото

Модель обучили распознавать материалы предметов на фото

Исследователи MIT и Adobe Research разработали инструмент, идентифицирующий материал предметов на фотографиях. Потенциальные приложения метода включают понимание сцен роботами, редактирование статичного и видеоконтента, а также улучшение рекомендательный систем в интернет-магазинах.…

Reactor: генерация сцен по текстовому описанию

19 мая 2023
reactor parallel domains

Reactor: генерация сцен по текстовому описанию

Платформа Parallel Domain объявила о запуске Reactor – инструмента для работы с синтетическими данными, нацеленного на обучение беспилотных автомобилей и роботов. Интегрированная в Reactor языковая модель позволяет генерировать или модифицировать…