fbpx
  • Speech2Gesture: нейросеть генерирует жесты на основе речи

    Исследователи из UC Berkley разработали нейросеть, которая на основе речи человека генерирует жесты. Модель обходит state-of-the-art решения по количественной метрике. Исследователи опубликовали датасет с видеозаписями монологов и размеченными жестами, на котором обучалась нейросеть.

    Когда человек говорит, он передает информацию не только вербально, но и с помощью жестов. Коммуникационные взмахи руками и схожие движения сопровождают речь человека и передают часть информации. Модель работает end-to-end: на вход получает спектограмму речи, а на выходе отдает те жесты ладонями и руками, которые спикер вероятнее всего совершит. Спектограмма — визуальное представление аудиоволны в виде 2D изображения. Модель обучалась на шумных размеченных автоматически данных.

    Видеодемонстрация работы нейросети:

    Данные

    Исследователи представили датасет, который состоит из 144 часов видеозаписей с речью с распознанными жестами для каждого фрейма. В датасете присутствуют речи 10 различных спикеров, для которых можно было найти многочасовые видеозаписи монологов.

    Спикеры были специально подобраны разнообразные: телеведущие, лекторы и публичные деятели. Контент речей ранжируется от химии до чтения религиозных трудов.

    Архитектура модели

    Обучение модели можно разделить на следующие шаги:

    • Сверточный кодировщик аудиозаписи уменьшает размерность 2D спектограммы до 1D сигнала;
    • Трансляционная модель (G) предсказывает соответствующий набор 2D поз;
    • L1 регрессия рассчитывает ошибку между сгенерированными позами и настоящей разметкой;
    • Состязательный дискриминатор отвечает за последовательность поз и их соответствие стилю невербальной коммуникации спикера

    Архитектура в кодировщике аудизаписи — UNet. Предсказанные движения рук должны быть последовательны и плавные. Это достигается с помощью аудиокодировщика всего фрейма и предсказания всех поз фрейма сразу, а не рекуррентно.

    Сравнение моделей

    Для сравнения в качестве простых решений были выбраны: предсказание медианной позы, предсказывание случайно выбранной позы, ближайшие соседи, RNN. Метрика оценки качества моделей — процент корректно предсказанных точек позы (PCK).

    Видно, что модель без дискриминатора для большинства спикеров в данных давала лучшие результаты.

    Таблицы с оценками моделей. Ours, no GAN — модель без дискриминатора, Ours, GAN — полная модель