v1v2v3 (latest)

Jointly Modeling Embedding and Translation to Bridge Video and Language

7 May 2015

Yingwei Pan

Tao Mei

Papers citing "Jointly Modeling Embedding and Translation to Bridge Video and Language"

50 / 199 papers shown

Q-Adapter: Visual Query Adapter for Extracting Textually-related Features in Video Captioning

11 Oct 2025

Multi-modal contrastive learning adapts to intrinsic dimensions of shared latent variables

317

18 May 2025

MM-NeRF: Multimodal-Guided 3D Multi-Style Transfer of Neural Radiance FieldIEEE Transactions on Visualization and Computer Graphics (TVCG), 2023

399

28 Jan 2025

Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image CaptioningEuropean Conference on Computer Vision (ECCV), 2024

290

03 Jan 2025

Hierarchical Banzhaf Interaction for General Video-Language Representation LearningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

395

31 Dec 2024

Resolving Word Vagueness with Scenario-guided Adapter for Natural Language Inference

216

21 May 2024

Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval

180

11 Apr 2024

Cross-Modal Reasoning with Event Correlation for Video Question Answering

191

20 Dec 2023

Multi Sentence Description of Complex Manipulation Action VideosMachine Vision and Applications (MVA), 2023

217

13 Nov 2023

A Survey on Image-text Multimodal Models

Ruifeng Guo

Jingxuan Wei

Linzhuang Sun

Khai-Nguyen Nguyen

Guiyong Chang

Dawei Liu

Sibo Zhang

Zhengbing Yao

Mingjun Xu

Liping Bu

VLM

327

23 Sep 2023

Zero-shot Composed Text-Image RetrievalBritish Machine Vision Conference (BMVC), 2023

Jiangchao Yao

211

12 Jun 2023

SEM-POS: Grammatically and Semantically Correct Video Captioning

203

26 Mar 2023

ADAPT: Action-aware Driving Caption TransformerIEEE International Conference on Robotics and Automation (ICRA), 2023

Bu Jin

Xinyi Liu

Yupeng Zheng

Pengfei Li

Hao Zhao

Tong Zhang

Yuhang Zheng

Guyue Zhou

Jingjing Liu

393

01 Feb 2023

Aligning Source Visual and Target Language Domains for Unpaired Video CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

242

22 Nov 2022

Prophet Attention: Predicting Attention with Future Attention for Image CaptioningNeural Information Processing Systems (NeurIPS), 2022

Xuancheng Ren

Yuexian Zou

231

19 Oct 2022

TLDW: Extreme Multimodal Summarisation of News Videos

Peggy Tang

Kun Hu

Lei Zhang

Jiebo Luo

Zhiyong Wang

194

16 Oct 2022

Cross Modal Compression: Towards Human-comprehensible Semantic CompressionACM Multimedia (MM), 2021

137

06 Sep 2022

Video Captioning: a comparative review of where we are and which could be the routeComputer Vision and Image Understanding (CVIU), 2022

Daniela Moctezuma

Tania A. Ramirez-delreal

Guillermo Ruiz

Othón González-Chávez

215

12 Apr 2022

Temporal Alignment Networks for Long-term VideoComputer Vision and Pattern Recognition (CVPR), 2022

175

104

06 Apr 2022

Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning MethodIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Keller Clayderman Martins de Oliveira

Leandro Soriano Marcolino

Erickson R. Nascimento

VGen

183

29 Mar 2022

Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web VideosComputer Vision and Pattern Recognition (CVPR), 2022

Tomávs Souvcek

Jean-Baptiste Alayrac

Antoine Miech

Ivan Laptev

Josef Sivic

230

22 Mar 2022

MORE: Multi-Order RElation Mining for Dense Captioning in 3D ScenesEuropean Conference on Computer Vision (ECCV), 2022

259

10 Mar 2022

Exploiting long-term temporal dynamics for video captioningWorld wide web (Bussum) (WWW), 2018

Yuyu Guo

Jingqiu Zhang

Lianli Gao

135

22 Feb 2022

Temporal Sentence Grounding in Videos: A Survey and Future DirectionsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

370

20 Jan 2022

Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular Vision-Language Pre-training

Yingwei Pan

Tao Mei

221

11 Jan 2022

Synchronized Audio-Visual Frames with Fractional Positional Encoding for Transformers in Video-to-Text TranslationInternational Conference on Information Photonics (ICIP), 2021

154

28 Dec 2021

CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and Denoising

Yingwei Pan

Tao Mei

155

14 Dec 2021

Controllable Video Captioning with an Exemplar Sentence

177

02 Dec 2021

Syntax Customized Video Captioning by Imitating Exemplar Sentences

Yitian Yuan

Lin Ma

Wenwu Zhu

156

02 Dec 2021

Hierarchical Modular Network for Video Captioning

Hanhua Ye

Guorong Li

Yuankai Qi

Shuhui Wang

Qingming Huang

Ming-Hsuan Yang

230

24 Nov 2021

Co-segmentation Inspired Attention Module for Video-based Computer Vision TasksComputer Vision and Image Understanding (CVIU), 2021

Arulkumar Subramaniam

362

14 Nov 2021

CLIP4Caption: CLIP for Video Caption

261

175

13 Oct 2021

A Survey on Temporal Sentence Grounding in Videos

319

16 Sep 2021

Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal AttentionACM Multimedia (ACM MM), 2021

212

07 Sep 2021

Maximum Likelihood Estimation for Multimodal Learning with Missing Modality

176

24 Aug 2021

X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics

Yingwei Pan

Tao Mei

192

18 Aug 2021

End-to-End Dense Video Captioning with Parallel Decoding

Ran Cheng

277

225

17 Aug 2021

O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video CaptioningFindings (Findings), 2021

Xuancheng Ren

246

05 Aug 2021

Optimizing Latency for Online Video CaptioningUsing Audio-Visual TransformersInterspeech (Interspeech), 2021

Chiori Hori

Takaaki Hori

Jonathan Le Roux

130

04 Aug 2021

Multimodal Co-learning: Challenges, Applications with Datasets, Recent Advances and Future DirectionsInformation Fusion (Inf. Fusion), 2021

390

175

29 Jul 2021

Looking for the Signs: Identifying Isolated Sign Instances in Continuous Video FootageIEEE International Conference on Automatic Face & Gesture Recognition (FG), 2021

Tao Jiang

Necati Cihan Camgöz

Richard Bowden

101

21 Jul 2021

VPN++: Rethinking Video-Pose embeddings for understanding Activities of Daily LivingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

349

17 May 2021

Video Corpus Moment Retrieval with Contrastive LearningAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2021

273

102

13 May 2021

A Bi-Encoder LSTM Model For Learning Unstructured Dialogs

Diwanshu Shekhar

P. Negi

Mohammad H. Mahoor

101

25 Apr 2021

T2VLAD: Global-Local Sequence Alignment for Text-Video RetrievalComputer Vision and Pattern Recognition (CVPR), 2021

Xiaohan Wang

Linchao Zhu

Yi Yang

376

213

20 Apr 2021

Embracing Uncertainty: Decoupling and De-bias for Robust Temporal GroundingComputer Vision and Pattern Recognition (CVPR), 2021

175

31 Mar 2021

Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with TransformersComputer Vision and Pattern Recognition (CVPR), 2021

Antoine Miech

Jean-Baptiste Alayrac

329

160

30 Mar 2021

A Comprehensive Review of the Video-to-Text ProblemArtificial Intelligence Review (AIR), 2021

269

27 Mar 2021

Scheduled Sampling in Vision-Language Pretraining with Decoupled Encoder-Decoder NetworkAAAI Conference on Artificial Intelligence (AAAI), 2021

Yingwei Pan

Tao Mei

157

27 Jan 2021

End-to-End Video Question-Answer Generation with Generator-Pretester Network

Hung-Ting Su

145

05 Jan 2021