Speech2Gesture: нейросеть генерирует жесты на основе речи

Исследователи из UC Berkley разработали нейросеть, которая на основе речи человека генерирует жесты. Модель обходит state-of-the-art решения по количественной метрике. Исследователи опубликовали датасет с видеозаписями монологов и размеченными жестами, на котором обучалась нейросеть.

Когда человек говорит, он передает информацию не только вербально, но и с помощью жестов. Коммуникационные взмахи руками и схожие движения сопровождают речь человека и передают часть информации. Модель работает end-to-end: на вход получает спектограмму речи, а на выходе отдает те жесты ладонями и руками, которые спикер вероятнее всего совершит. Спектограмма — визуальное представление аудиоволны в виде 2D изображения. Модель обучалась на шумных размеченных автоматически данных.

Видеодемонстрация работы нейросети:

Данные

Исследователи представили датасет, который состоит из 144 часов видеозаписей с речью с распознанными жестами для каждого фрейма. В датасете присутствуют речи 10 различных спикеров, для которых можно было найти многочасовые видеозаписи монологов.

Спикеры были специально подобраны разнообразные: телеведущие, лекторы и публичные деятели. Контент речей ранжируется от химии до чтения религиозных трудов.

Архитектура модели

Обучение модели можно разделить на следующие шаги:

  • Сверточный кодировщик аудиозаписи уменьшает размерность 2D спектограммы до 1D сигнала;
  • Трансляционная модель (G) предсказывает соответствующий набор 2D поз;
  • L1 регрессия рассчитывает ошибку между сгенерированными позами и настоящей разметкой;
  • Состязательный дискриминатор отвечает за последовательность поз и их соответствие стилю невербальной коммуникации спикера

Архитектура в кодировщике аудизаписи — UNet. Предсказанные движения рук должны быть последовательны и плавные. Это достигается с помощью аудиокодировщика всего фрейма и предсказания всех поз фрейма сразу, а не рекуррентно.

Сравнение моделей

Для сравнения в качестве простых решений были выбраны: предсказание медианной позы, предсказывание случайно выбранной позы, ближайшие соседи, RNN. Метрика оценки качества моделей — процент корректно предсказанных точек позы (PCK).

Видно, что модель без дискриминатора для большинства спикеров в данных давала лучшие результаты.

Таблицы с оценками моделей. Ours, no GAN — модель без дискриминатора, Ours, GAN — полная модель
Подписаться
Уведомить о
guest

0 Comments
Межтекстовые Отзывы
Посмотреть все комментарии

gogpt