v1v2 (latest)

ViT-TTS: Visual Text-to-Speech with Scalable Diffusion Transformer

Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023

22 May 2023

Rongjie Huang

Zhou Zhao

Papers citing "ViT-TTS: Visual Text-to-Speech with Scalable Diffusion Transformer"

12 / 12 papers shown

OmniCache: A Trajectory-Oriented Global Perspective on Training-Free Cache Reuse for Diffusion Transformer Models

240

22 Aug 2025

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing

498

26 Jun 2025

OmniAudio: Generating Spatial Audio from 360-Degree Video

...

534

21 Apr 2025

EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting

...

533

17 Apr 2025

Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-SpeechAAAI Conference on Artificial Intelligence (AAAI), 2024

479

16 Dec 2024

Video Diffusion Transformers are In-Context Learners

928

14 Dec 2024

SmoothCache: A Universal Inference Acceleration Technique for Diffusion Transformers

358

15 Nov 2024

FlashAudio: Rectified Flows for Fast and High-Fidelity Text-to-Audio GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

355

16 Oct 2024

MEDIC: Zero-shot Music Editing with Disentangled Inversion Control

305

18 Jul 2024

Quality-aware Masked Diffusion Transformer for Enhanced Music Generation

424

24 May 2024

On the Design Fundamentals of Diffusion Models: A SurveyPattern Recognition (Pattern Recogn.), 2023

Ziyi Chang

George Alex Koulieris

Hyung Jin Chang

Hubert P. H. Shum

DiffM

671

07 Jun 2023

Wav2SQL: Direct Generalizable Speech-To-SQL ParsingAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Rongjie Huang

Xize Cheng

Zhou Zhao

223

21 May 2023