Microsoft VASA-1: платформа для анимирования статичных изображений

microsoft vasa-1

Microsoft представила платформу VASA-1, преобразующую изображение человека и аудиозапись с речью в видео с синхронизированными движениями губ и головы. Алгоритм работает в реальном времени со скоростью 40 кадров в секунду.

В долгосрочной перспективе Microsoft рассматривает VASA-1 как шаг к созданию реалистичных аватаров, имитирующих движения и эмоции человека. По утверждению компании, это может помочь повысить образовательный уровень, улучшить доступность для людей с проблемами общения и предложить дружескую или терапевтическую поддержку тем, кто в ней нуждается.

Платформа включает модель генерации движений головы, которая работает в скрытом пространстве лица. Cгенерированные видео передают полный спектр эмоций, а также особенности различных выражений лица и естественные движения головы. Технология позволяет пользователям управлять процессом генерации, включая настройку последовательности движений, направления взгляда, расстояние до головы и эмоции с помощью задания числовых параметров. Кроме того, платформа дает возможность работать с контентом, который не был включен в обучающий датасет, например, художественные фотографии, аудиозаписи пения и неанглоязычную речь.

VASA-1 генерирует видео с разрешением 512 х 512 со скоростью 45 кадров в секунду в автономном режиме пакетной обработки и может поддерживать скорость до 40 кадров в секунду в режиме онлайн-трансляции. Microsoft утверждает, что алгоритм превосходит другие методы в этой области, если ее протестировать с помощью обширных экспериментов, включая сравнение по совершенно новому набору показателей. Платформа работает с двумя типами аудиозаписей: обычной речью и пением.

Учитывая риск создания дипфейков с помощью технологии, Microsoft пока не выпускает VASA-1 в качестве продукта или API.

Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt