Microsoft VASA-1: платформа для анимирования статичных изображений

Microsoft представила платформу VASA-1, преобразующую изображение человека и аудиозапись с речью в видео с синхронизированными движениями губ и головы. Алгоритм работает в реальном времени со скоростью 40 кадров в секунду.

В долгосрочной перспективе Microsoft рассматривает VASA-1 как шаг к созданию реалистичных аватаров, имитирующих движения и эмоции человека. По утверждению компании, это может помочь повысить образовательный уровень, улучшить доступность для людей с проблемами общения и предложить дружескую или терапевтическую поддержку тем, кто в ней нуждается.

Платформа включает модель генерации движений головы, которая работает в скрытом пространстве лица.

Cгенерированные видео передают полный спектр эмоций, а также особенности различных выражений лица и естественные движения головы. Технология позволяет пользователям управлять процессом генерации, включая настройку последовательности движений, направления взгляда, расстояние до головы и эмоции с помощью задания числовых параметров. Кроме того, платформа дает возможность работать с контентом, который не был включен в обучающий датасет, например, художественные фотографии, аудиозаписи пения и неанглоязычную речь.

Программу уже опробовали различные фан-комьюнити, посвященные единоборствам. К примеру, анимировали изображения боксеров, которые обычно крайне немногословны. Напомним, что речь идет об одном из самых популярных видов спорта на планете, на который традиционно делают множество прогнозов. Сегодня любители бокса могут скачать спортбет, дабы заключать пари на поединки в ринге с помощью своего смартфона.

VASA-1 генерирует видео с разрешением 512 х 512 со скоростью 45 кадров в секунду в автономном режиме пакетной обработки и может поддерживать скорость до 40 кадров в секунду в режиме онлайн-трансляции. Microsoft утверждает, что алгоритм превосходит другие методы в этой области, если ее протестировать с помощью обширных экспериментов, включая сравнение по совершенно новому набору показателей. Платформа работает с двумя типами аудиозаписей: обычной речью и пением.

Учитывая риск создания дипфейков с помощью технологии, Microsoft пока не выпускает VASA-1 в качестве продукта или API.