v1v2 (latest)

DiffusionRet: Generative Text-Video Retrieval with Diffusion Model

IEEE International Conference on Computer Vision (ICCV), 2023

17 March 2023

Hao Li

ArXiv (abs)PDF HTML Github (131★)

Papers citing "DiffusionRet: Generative Text-Video Retrieval with Diffusion Model"

46 / 46 papers shown

Table Comprehension in Building Codes using Vision Language Models and Domain-Specific Fine-Tuning

362

23 Nov 2025

Reasoning Text-to-Video Retrieval via Digital Twin Video Representations and Large Language Models

238

15 Nov 2025

TCMA: Text-Conditioned Multi-granularity Alignment for Drone Cross-Modal Text-Video Retrieval

Zixu Zhao

Yang Zhan

VGen AI4TS

141

11 Oct 2025

RePainter: Empowering E-commerce Object Removal via Spatial-matting Reinforcement Learning

...

102

09 Oct 2025

Hybrid-Tower: Fine-grained Pseudo-query Interaction and Generation for Text-to-Video Retrieval

110

05 Sep 2025

Learning Partially-Decorrelated Common Spaces for Ad-hoc Video Search

Fan Hu

Zijie Xin

Xirong Li

130

04 Aug 2025

BiMa: Towards Biases Mitigation for Text-Video Retrieval via Scene Element Guidance

436

04 Jun 2025

Semantic-Space-Intervened Diffusive Alignment for Visual ClassificationInternational Joint Conference on Artificial Intelligence (IJCAI), 2025

370

09 May 2025

Prototypes are Balanced Units for Efficient and Effective Partially Relevant Video Retrieval

284

17 Apr 2025

DiffusionCom: Structure-Aware Multimodal Diffusion Model for Multimodal Knowledge Graph Completion

263

09 Apr 2025

Query Smarter, Trust Better? Exploring Search Behaviours for Verifying News AccuracyAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025

Marcos Fernández-Pichel

...

195

07 Apr 2025

Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval

A. Fragomeni

Dima Damen

Michael Wray

483

02 Apr 2025

Generative Modeling of Class Probability for Multi-Modal Representation LearningComputer Vision and Pattern Recognition (CVPR), 2025

Jungkyoo Shin

Bumsoo Kim

Eunwoo Kim

395

21 Mar 2025

NeighborRetr: Balancing Hub Centrality in Cross-Modal RetrievalComputer Vision and Pattern Recognition (CVPR), 2025

211

13 Mar 2025

Continual Text-to-Video Retrieval with Frame Fusion and Task-Aware RoutingAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025

468

13 Mar 2025

MUSE: Mamba is Efficient Multi-scale Learner for Text-video RetrievalAAAI Conference on Artificial Intelligence (AAAI), 2024

358

24 Feb 2025

Learning Semantic Facial Descriptors for Accurate Face AnimationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

128

29 Jan 2025

Unveiling Discrete Clues: Superior Healthcare Predictions for Rare DiseasesThe Web Conference (WWW), 2025

244

23 Jan 2025

AE-NeRF: Augmenting Event-Based Neural Radiance Fields for Non-ideal Conditions and Larger SceneAAAI Conference on Artificial Intelligence (AAAI), 2025

263

08 Jan 2025

Hierarchical Banzhaf Interaction for General Video-Language Representation LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

395

31 Dec 2024

ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long VideosComputer Vision and Pattern Recognition (CVPR), 2024

222

22 Nov 2024

MoH: Multi-Head Attention as Mixture-of-Head AttentionInternational Conference on Machine Learning (ICML), 2024

406

15 Oct 2024

DiffATR: Diffusion-based Generative Modeling for Audio-Text RetrievalInterspeech (Interspeech), 2024

Yifei Xin

Xuxin Cheng

313

16 Sep 2024

TempMe: Video Temporal Token Merging for Efficient Text-Video RetrievalInternational Conference on Learning Representations (ICLR), 2024

Leqi Shen

Tianxiang Hao

Tao He

Sicheng Zhao

Pengzhang Liu

Yongjun Bao

Guiguang Ding

445

02 Sep 2024

Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation

Runyi Yu

191

15 Jul 2024

Towards Retrieval Augmented Generation over Large Video Libraries

145

21 Jun 2024

Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval

330

26 Mar 2024

VidLA: Video-Language Alignment at ScaleComputer Vision and Pattern Recognition (CVPR), 2024

Mamshad Nayeem Rizve

Fan Fei

Jayakrishnan Unnikrishnan

Mubarak Shah

224

21 Mar 2024

Retrieval is Accurate Generation

Leyang Cui

Wei Bi

399

27 Feb 2024

TaxDiff: Taxonomic-Guided Diffusion Model for Protein Sequence Generation

Lin Bin

Tian Yonghong

204

27 Feb 2024

ProtIR: Iterative Refinement between Retrievers and Predictors for Protein Function Annotation

Zuobai Zhang

Jiarui Lu

Vijil Chenthamarakshan

Aurélie C. Lozano

Payel Das

Jian Tang

159

10 Feb 2024

Continuous-Multiple Image Outpainting in One-Step via Positional Query and A Diffusion-based ApproachInternational Conference on Learning Representations (ICLR), 2024

Fan Wang

273

28 Jan 2024

DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval

Yi Yang

296

19 Jan 2024

Video Understanding with Large Language Models: A Survey

...

708

163

29 Dec 2023

Diffusion-Based Particle-DETR for BEV Perception

Luc Van Gool

279

18 Dec 2023

FreestyleRet: Retrieving Images from Style-Diversified Queries

334

05 Dec 2023

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2023

508

349

14 Nov 2023

3DifFusionDet: Diffusion Model for 3D Object Detection with Robust LiDAR-Camera Fusion

Xinhao Xiang

Simon Dräger

Jiawei Zhang

183

07 Nov 2023

Act As You Wish: Fine-Grained Control of Motion Diffusion Model with Hierarchical Semantic GraphsNeural Information Processing Systems (NeurIPS), 2023

268

02 Nov 2023

A Survey on Video Diffusion ModelsACM Computing Surveys (ACM Comput. Surv.), 2023

Zuxuan Wu

439

215

16 Oct 2023

DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and Highlight DetectionIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2023

Henghao Zhao

Kevin Qinghong Lin

Rui Yan

Zechao Li

VGen DiffM

338

29 Aug 2023

MomentDiff: Generative Video Moment Retrieval from Random to RealNeural Information Processing Systems (NeurIPS), 2023

346

06 Jul 2023

Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set AlignmentInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

Hao Li

279

20 May 2023

TG-VQA: Ternary Game of Video Question AnsweringInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

Hao Li

234

17 May 2023

UATVR: Uncertainty-Adaptive Text-Video RetrievalIEEE International Conference on Computer Vision (ICCV), 2023

Jingdong Wang

246

16 Jan 2023

Toward 3D Spatial Reasoning for Human-like Text-based Visual Question AnsweringIEEE Transactions on Image Processing (IEEE TIP), 2022

Hao Li

Qi Wu

373

21 Sep 2022