v1v2 (latest)

Towards Accurate Generative Models of Video: A New Metric & Challenges

3 December 2018

Thomas Unterthiner

Sjoerd van Steenkiste

Papers citing "Towards Accurate Generative Models of Video: A New Metric & Challenges"

50 / 715 papers shown

TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video GenerationComputer Vision and Pattern Recognition (CVPR), 2025

289

11 Apr 2025

EasyGenNet: An Efficient Framework for Audio-Driven Gesture Video Generation Based on Diffusion Model

275

11 Apr 2025

IGG: Image Generation Informed by Geodesic Dynamics in Deformation SpacesInformation Processing in Medical Imaging (IPMI), 2025

352

09 Apr 2025

RAGME: Retrieval Augmented Video Generation for Enhanced Motion RealismInternational Conference on Multimedia Retrieval (ICMR), 2025

335

09 Apr 2025

DyDiT++: Diffusion Transformers with Timestep and Spatial Dynamics for Efficient Visual Generation

593

09 Apr 2025

Video-Bench: Human-Aligned Video Generation BenchmarkComputer Vision and Pattern Recognition (CVPR), 2025

...

587

07 Apr 2025

Can You Count to Nine? A Human Evaluation Benchmark for Counting Limits in Modern Text-to-Video Models

508

05 Apr 2025

Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

510

03 Apr 2025

CoGen: 3D Consistent Video Generation via Adaptive Conditioning for Autonomous Driving

286

28 Mar 2025

Exploring the Evolution of Physics Cognition in Video Generation: A Survey

...

377

27 Mar 2025

DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation

299

27 Mar 2025

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion TransformersComputer Vision and Pattern Recognition (CVPR), 2025

...

288

25 Mar 2025

MVPortrait: Text-Guided Motion and Emotion Control for Multi-view Vivid Portrait AnimationComputer Vision and Pattern Recognition (CVPR), 2025

304

25 Mar 2025

AdaWorld: Learning Adaptable World Models with Latent Actions

574

24 Mar 2025

EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation

340

24 Mar 2025

Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion GenerationComputer Vision and Pattern Recognition (CVPR), 2025

261

24 Mar 2025

RDTF: Resource-efficient Dual-mask Training Framework for Multi-frame Animated Sticker Generation

243

22 Mar 2025

Enabling Versatile Controls for Video Diffusion Models

272

21 Mar 2025

PoseTraj: Pose-Aware Trajectory Control in Video DiffusionComputer Vision and Pattern Recognition (CVPR), 2025

270

20 Mar 2025

MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving

305

20 Mar 2025

SV4D 2.0: Enhancing Spatio-Temporal Consistency in Multi-View Video Diffusion for High-Quality 4D Generation

543

20 Mar 2025

Ultrasound Image-to-Video Synthesis via Latent Dynamic Diffusion ModelsInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

313

19 Mar 2025

Temporal Regularization Makes Your Video Generator Stronger

379

19 Mar 2025

Fast Autoregressive Video Generation with Diagonal Decoding

260

18 Mar 2025

Generative Gaussian Splatting: Generating 3D Scenes with Video Diffusion Priors

301

17 Mar 2025

AUTV: Creating Underwater Video Datasets with Pixel-wise Annotations

318

17 Mar 2025

EQ-TAA: Equivariant Traffic Accident Anticipation via Diffusion-Based Accident Video Synthesis

244

16 Mar 2025

TACO: Taming Diffusion for in-the-wild Video Amodal Completion

468

15 Mar 2025

RASA: Replace Anyone, Say Anything -- A Training-Free Framework for Audio-Driven and Universal Portrait Video Editing

300

14 Mar 2025

HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models

183

14 Mar 2025

Cosh-DiT: Co-Speech Gesture Video Synthesis via Hybrid Audio-Visual Diffusion Transformers

...

352

13 Mar 2025

Inter-environmental world modeling for continuous and compositional dynamics

Kunihiko Miyoshi

Masanori Koyama

Julian Jorge Andrade Guerreiro

KELM

306

13 Mar 2025

CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models

391

13 Mar 2025

Neighboring Autoregressive Modeling for Efficient Visual Generation

326

12 Mar 2025

Other Vehicle Trajectories Are Also Needed: A Driving World Model Unifies Ego-Other Vehicle Trajectories in Video Latent Space

975

12 Mar 2025

Reangle-A-Video: 4D Video Generation as Video-to-Video Translation

1.2K

12 Mar 2025

PISA Experiments: Exploring Physics Post-Training for Video Diffusion Models by Watching Stuff Drop

229

12 Mar 2025

TPDiff: Temporal Pyramid Video Diffusion Model

L. Ran

Mike Zheng Shou

284

12 Mar 2025

V2M4: 4D Mesh Animation Reconstruction from a Single Monocular Video

304

11 Mar 2025

REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder

248

11 Mar 2025

Toward Stable World Models: Measuring and Addressing World Instability in Generative Environments

284

11 Mar 2025

Versatile Multimodal Controls for Expressive Talking Human Animation

330

10 Mar 2025

AR-Diffusion: Asynchronous Video Generation with Auto-Regressive DiffusionComputer Vision and Pattern Recognition (CVPR), 2025

353

10 Mar 2025

LightMotion: A Light and Tuning-free Method for Simulating Camera Motion in Video Generation

309

09 Mar 2025

VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation

305

09 Mar 2025

VACT: A Video Automatic Causal Testing System and a Benchmark

355

08 Mar 2025

Get In Video: Add Anything You Want to the Video

367

08 Mar 2025

FuseChat-3.0: Preference Optimization Meets Heterogeneous Model Fusion

286

06 Mar 2025

DualDiff+: Dual-Branch Diffusion for High-Fidelity Video Generation with Reward Guidance

368

05 Mar 2025

GRADEO: Towards Human-Like Evaluation for Text-to-Video Generation via Multi-Step Reasoning

318

04 Mar 2025