v1v2 (latest)

Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation

13 June 2024

Qingkun Su

Ce Liu

Yao Yao

Siyu Zhu

VGen

ArXiv (abs)PDF HTML

Papers citing "Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation"

50 / 99 papers shown

EmoCAST: Emotional Talking Portrait via Emotive Text Description

133

24 Dec 2025

AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement

...

116

28 Nov 2025

IMTalker: Efficient Audio-driven Talking Face Generation with Implicit Motion Transfer

27 Nov 2025

ConsistTalk: Intensity Controllable Temporally Consistent Talking Head Generation with Diffusion Noise Search

299

10 Nov 2025

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region RefinementIEEE Transactions on Audio, Speech, and Language Processing (TASLP), 2025

115

28 Oct 2025

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

152

27 Oct 2025

MAGIC-Talk: Motion-aware Audio-Driven Talking Face Generation with Customizable Identity Control

100

26 Oct 2025

Playmate2: Training-Free Multi-Character Audio-Driven Animation via Diffusion Transformer with Reward Feedback

172

14 Oct 2025

DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis

12 Oct 2025

VividAnimator: An End-to-End Audio and Pose-driven Half-Body Human Animation Framework

150

11 Oct 2025

SHANKS: Simultaneous Hearing and Thinking for Spoken Language Models

188

08 Oct 2025

StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing

202

26 Sep 2025

X-Streamer: Unified Human World Modeling with Audiovisual Interaction

192

25 Sep 2025

Talking Head Generation via AU-Guided Landmark Prediction

172

24 Sep 2025

SynchroRaMa : Lip-Synchronized and Emotion-Aware Talking Face Generation via Multi-Modal Emotion Embedding

112

24 Sep 2025

DevFD: Developmental Face Forgery Detection by Learning Shared and Orthogonal LoRA Subspaces

197

23 Sep 2025

Follow-Your-Emoji-Faster: Towards Efficient, Fine-Controllable, and Expressive Freestyle Portrait Animation

...

267

20 Sep 2025

AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective

123

15 Sep 2025

Human Motion Video Generation: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

...

233

04 Sep 2025

InfinityHuman: Towards Long-Term Audio-Driven Human

134

27 Aug 2025

OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

131

26 Aug 2025

Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation

174

25 Aug 2025

TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

...

120

19 Aug 2025

InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing

...

129

19 Aug 2025

EDTalk++: Full Disentanglement for Controllable Talking Head Synthesis

Shuai Tan

Bin Ji

186

19 Aug 2025

StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation

164

11 Aug 2025

RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer

128

07 Aug 2025

READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation

294

05 Aug 2025

Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering

117

04 Aug 2025

X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent AttentionInternational Conference on Learning Representations (ICLR), 2025

174

30 Jul 2025

DiTalker: A Unified DiT-based Framework for High-Quality and Speaking Styles Controllable Portrait Animation

129

29 Jul 2025

JOLT3D: Joint Learning of Talking Heads and 3DMM Parameters with Application to Lip-Sync

173

28 Jul 2025

MagicAnime: A Hierarchically Annotated, Multimodal and Multitasking Dataset with Benchmarks for Cartoon Animation Generation

171

27 Jul 2025

Face2VoiceSync: Lightweight Face-Voice Consistency for Text-Driven Talking Face Generation

Fang Kang

Yin Cao

Haoyu Chen

228

25 Jul 2025

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

288

05 Jul 2025

MoDA: Multi-modal Diffusion Architecture for Talking Head Generation

282

04 Jul 2025

OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

1.3K

01 Jul 2025

iDiT-HOI: Inpainting-based Hand Object Interaction Reenactment via Video Diffusion Transformer

230

15 Jun 2025

LLIA -- Enabling Low-Latency Interactive Avatars: Real-Time Audio-Driven Portrait Video Generation with Diffusion Models

258

06 Jun 2025

Silence is Golden: Leveraging Adversarial Examples to Nullify Audio Control in LDM-based Talking-Head GenerationComputer Vision and Pattern Recognition (CVPR), 2025

183

02 Jun 2025

Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization

543

29 May 2025

MMGT: Motion Mask Guided Two-Stage Network for Co-Speech Gesture Video Generation

252

29 May 2025

Speaking images. A novel framework for the automated self-description of artworks

Valentine Bernasconi

Gustavo Marfia

VGen

123

28 May 2025

FaceEditTalker: Controllable Talking Head Generation with Facial Attribute Editing

236

28 May 2025

Exploring Timeline Control for Facial Motion GenerationComputer Vision and Pattern Recognition (CVPR), 2025

248

27 May 2025

HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters

301

26 May 2025

Beyond Face Swapping: A Diffusion-Based Digital Human Benchmark for Multimodal Deepfake Detection

494

22 May 2025

MAVOS-DD: Multilingual Audio-Video Open-Set Deepfake Detection Benchmark

Florinel-Alin Croitoru

265

16 May 2025

DATA: Multi-Disentanglement based Contrastive Learning for Open-World Semi-Supervised Deepfake AttributionIEEE transactions on multimedia (TMM), 2025

266

07 May 2025

KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution

Konstantinos Vougioukas

Stavros Petridis

Maja Pantic

325

01 May 2025