v1v2 (latest)

When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding

17 February 2025

ArXiv (abs)PDF HTML Github

Papers citing "When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding"

31 / 31 papers shown

Low-Bitrate Video Compression through Semantic-Conditioned Diffusion

239

29 Nov 2025

VesselRW: Weakly Supervised Subcutaneous Vessel Segmentation via Learned Random Walk Propagation

Ayaan Nooruddin Siddiqui

Mahnoor Zaidi

Ayesha Nazneen Shahbaz

Priyadarshini Chatterjee

Krishnan Menon Iyer

306

09 Aug 2025

DualResolution Residual Architecture with Artifact Suppression for Melanocytic Lesion Segmentation

Vikram Singh

Kabir Malhotra

Rohan Desai

Ananya Shankaracharya

Priyadarshini Chatterjee

Krishnan Menon Iyer

MedIm

389

09 Aug 2025

Edge Detection for Organ Boundaries via Top Down Refinement and SubPixel Upsampling

341

09 Aug 2025

Deeply Dual Supervised learning for melanoma recognition

Rujosh Polma

Krishnan Menon Iyer

275

04 Aug 2025

Pretraining a Unified PDDL Domain from Real-World Demonstrations for Generalizable Robot Task Planning

233

29 Jul 2025

Conditional Video Generation for High-Efficiency Video Compression

394

21 Jul 2025

T-GVC: Trajectory-Guided Generative Video Coding at Ultra-Low Bitrates

447

10 Jul 2025

GIViC: Generative Implicit Video Compression

434

25 Mar 2025

Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene UnderstandingComputer Vision and Pattern Recognition (CVPR), 2025

1.2K

20 Mar 2025

Video-of-Thought: Step-by-Step Video Reasoning from Perception to CognitionInternational Conference on Machine Learning (ICML), 2024

581

168

08 Jan 2025

SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video DiffusionEuropean Conference on Computer Vision (ECCV), 2024

Mark Boss

348

349

18 Mar 2024

VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2024

Haoxin Chen

Yong Zhang

Xiaodong Cun

Ying Shan

533

570

17 Jan 2024

DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing

275

12 Dec 2023

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Bin Lin

1.8K

1,378

16 Nov 2023

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and PredictionInternational Conference on Learning Representations (ICLR), 2023

Dahua Lin

Yu Qiao

Ziwei Liu

VGen DiffM

428

217

31 Oct 2023

LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion ModelsInternational Journal of Computer Vision (IJCV), 2023

...

Yu Qiao

Ziwei Liu

VGen DiffM

334

355

26 Sep 2023

StableVideo: Text-driven Consistency-aware Diffusion Video EditingIEEE International Conference on Computer Vision (ICCV), 2023

313

215

18 Aug 2023

CoDeF: Content Deformation Fields for Temporally Consistent Video ProcessingComputer Vision and Pattern Recognition (CVPR), 2023

251

124

15 Aug 2023

ModelScope Text-to-Video Technical Report

447

656

12 Aug 2023

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video UnderstandingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Hang Zhang

Xin Li

Lidong Bing

MLLM

759

1,636

05 Jun 2023

Preserve Your Own Correlation: A Noise Prior for Video Diffusion ModelsIEEE International Conference on Computer Vision (ICCV), 2023

584

313

17 May 2023

AMT: All-Pairs Multi-Field Transforms for Efficient Frame InterpolationComputer Vision and Pattern Recognition (CVPR), 2023

Ming-Ming Cheng

250

171

19 Apr 2023

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2023

Sanja Fidler

717

1,575

18 Apr 2023

Neural Video Compression with Diverse ContextsComputer Vision and Pattern Recognition (CVPR), 2023

Jiahao Li

Bin Li

Yan Lu

556

271

28 Feb 2023

Structure and Content-Guided Video Synthesis with Diffusion ModelsIEEE International Conference on Computer Vision (ICCV), 2023

475

717

06 Feb 2023

Make-A-Video: Text-to-Video Generation without Text-Video DataInternational Conference on Learning Representations (ICLR), 2022

...

Devi Parikh

395

1,931

29 Sep 2022

Cross Modal Compression: Towards Human-comprehensible Semantic CompressionACM Multimedia (MM), 2021

180

06 Sep 2022

Deep Contextual Video Compression

Jiahao Li

Bin Li

Yan Lu

463

416

30 Sep 2021

Learning Transferable Visual Models From Natural Language SupervisionInternational Conference on Machine Learning (ICML), 2021

...

2.2K

45,649

26 Feb 2021

Non-local Attention Optimized Deep Image Compression

Tong Chen

Xun Cao

Zhan Ma

258

310

22 Apr 2019