EzAudio: гиперреалистичная открытая Text-to-Audio модель
19 сентября 2024
EzAudio: гиперреалистичная открытая Text-to-Audio модель
EzAudio — новая диффузная модель генерации аудио на основе текста (T2A), разработанная исследователями из Tencent AI Lab и Университета Джонса Хопкинса. В основе модели — архитектура диффузионного трансформера для обработки…