AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation

v1v2 (latest)

AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation

29 April 2025

ArXiv (abs)PDF HTML

Papers citing "AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation"

3 / 3 papers shown

Title
From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-SpeechComputer Vision and Pattern Recognition (CVPR), 2025 Ji-Hoon Kim Jeongsoo Choi Jaehun Kim Chaeyoung Jung Joon Son Chung CVBM 195 3 0 21 Mar 2025
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You ThinkInternational Conference on Learning Representations (ICLR), 2024 Sihyun Yu Sangkyung Kwak Huiwon Jang Jongheon Jeong Jonathan Huang Jinwoo Shin Saining Xie OCL 558 267 0 09 Oct 2024
F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow MatchingAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Emmanouil Benetos Zhikang Niu Ziyang Ma Keqi Deng Chunhui Wang Jian Zhao Kai Yu Xie Chen 502 242 0 09 Oct 2024