Перевод текста в анимацию сложная задача и существующие модели преобразования текста в анимацию могут работать только с простыми задачами. Исследователи из компании Disney разработали алгоритм, который позволяет преобразовывать текст в анимацию. Цель не заменить писателей и художников, а сделать их работу более эффективной.
Возможность обработки сложных предложений была достигнута за счёт упрощения текста в процессе создания. Исследователи создали набор лингвистических правил преобразования, которые упрощают сложные предложения. Информация, извлечённая из упрощённых предложений, используется для грубой раскадровки видео. Этот метод упрощения текста превосходит все существующие подходы на метриках BLEU и SARI. Помимо прямого использования модель можно использовать для генерации обучающих данных для нейросетей.
Архитектура
Система состоит из трёх модулей:
- Модуль синтаксического анализа текста — автоматически отбирает часть текста для создания анимации.
- Модуль NLP — обрабатывает извлечённый текст для получения информации. Имеет два подмодуля, первый упрощает сложные предложения, используя набор лингвистических правил, второй извлекает информацию для создания представления действия.
- Модуль генерации анимации — генерирует анимацию за счёт созданного представления действия.
Алгоритм действий
Система получает предложение. Идентификатор обрабатывает предложение и определяет синтаксическую структуру. Процесс преобразования фокусируется на первом появлении определённой синтаксической структуры, а затем разбивает предложения на более простые. Пример упрощения: Она смеётся и целует Кевина -> Она смеётся & Она целует Кевина.
Для создания анимации модуль NLP подключается к системе CARDINAL, которая использует игровой движок Unreal, и создаёт предварительную визуализацию анимации. Анимация представляет собой трехмерное анимированное видео, которое развивается по сценарию.
Проверка качества упрощения предложений
Для тестирования был использован набор данных из ScreenPy, который содержал сценарии 1068 фильмов. После форматирования осталось 996 сценариев, которые содержали 525 708 компонентов. Компоненты содержали в себе 1 402 864 предложения со средней длиной 12 слов.
Целью тестирования было не показать преимущества системы, а оценить как она работает. В настоящее время неизвестно, какой способ оценки для таких систем является более подходящим.