v1v2 (latest)

Visual Grounding in Video for Unsupervised Word Translation

Computer Vision and Pattern Recognition (CVPR), 2020

11 March 2020

Gunnar Sigurdsson

Jean-Baptiste Alayrac

Papers citing "Visual Grounding in Video for Unsupervised Word Translation"

29 / 29 papers shown

Grounded Video Caption Generation

Evangelos Kazakos

Cordelia Schmid

Josef Sivic

328

12 Nov 2024

Encoder-Decoder Based Long Short-Term Memory (LSTM) Model for Video Captioning

245

02 Oct 2023

CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine TranslationIEEE International Conference on Computer Vision (ICCV), 2023

310

29 Aug 2023

Divert More Attention to Vision-Language Object TrackingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

332

19 Jul 2023

Self-Supervised Multimodal Learning: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Yongshuo Zong

Oisin Mac Aodha

Timothy M. Hospedales

SSL

450

109

31 Mar 2023

Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-trainingConference of the European Chapter of the Association for Computational Linguistics (EACL), 2022

368

14 Oct 2022

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video RetrievalIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

250

07 Oct 2022

Vision+X: A Survey on Multimodal Learning in the Light of DataIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Ye Zhu

Yuehua Wu

Andrii Zadaianchuk

Yan Yan

489

05 Oct 2022

MuMUR : Multilingual Multimodal Universal Retrieval

Avinash Madasu

Estelle Aflalo

Gabriela Ben-Melech Stan

Shachar Rosenman

Shao-Yen Tseng

Gedas Bertasius

Vasudev Lal

534

24 Aug 2022

CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations

247

05 Jul 2022

VALHALLA: Visual Hallucination for Machine TranslationComputer Vision and Pattern Recognition (CVPR), 2022

551

31 May 2022

Utilizing Language-Image Pretraining for Efficient and Robust Bilingual Word AlignmentConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Dimitris Papailiopoulos

Kangwook Lee

281

23 May 2022

Visual Attention Methods in Deep Learning: An In-Depth SurveyInformation Fusion (Inf. Fusion), 2022

Saeed Anwar

474

275

16 Apr 2022

Enabling Multimodal Generation on CLIP via Vision-Language Knowledge DistillationFindings (Findings), 2022

Wenliang Dai

Lu Hou

Lifeng Shang

Xin Jiang

Qun Liu

Pascale Fung

VLM

266

110

12 Mar 2022

Revisiting Weakly Supervised Pre-Training of Visual Perception ModelsComputer Vision and Pattern Recognition (CVPR), 2022

Mannat Singh

Laura Gustafson

Aaron B. Adcock

Vinicius de Freitas Reis

Piotr Dollár

Laurens van der Maaten

VLM

360

153

20 Jan 2022

SVIP: Sequence VerIfication for Procedures in Videos

Xu Tang

395

13 Dec 2021

Cascaded Multilingual Audio-Visual Learning from Videos

...

618

08 Nov 2021

Product-oriented Machine Translation with Cross-modal Cross-lingual Pre-trainingACM Multimedia (ACM MM), 2021

Qin Jin

Fei Huang

232

25 Aug 2021

VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation

...

Zicheng Liu

329

121

08 Jun 2021

Crossing the Conversational Chasm: A Primer on Natural Language Processing for Multilingual Task-Oriented Dialogue SystemsJournal of Artificial Intelligence Research (JAIR), 2021

590

17 Apr 2021

UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2021

289

110

01 Apr 2021

Broaden Your Views for Self-Supervised Video LearningIEEE International Conference on Computer Vision (ICCV), 2021

Adrià Recasens

Pauline Luc

Jean-Baptiste Alayrac

...

404

140

30 Mar 2021

Source-Free Domain Adaptation for Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2021

Yuang Liu

Wei Zhang

Jun Wang

359

321

30 Mar 2021

Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2021

Po-Yao (Bernie) Huang

Mandela Patrick

Junjie Hu

Graham Neubig

Florian Metze

Alexander G. Hauptmann

MLLM VLM

388

16 Mar 2021

Decoupling the Role of Data, Attention, and Losses in Multimodal TransformersTransactions of the Association for Computational Linguistics (TACL), 2021

Lisa Anne Hendricks

John F. J. Mellor

R. Schneider

Jean-Baptiste Alayrac

Aida Nematzadeh

308

129

31 Jan 2021

Globetrotter: Connecting Languages by Connecting Images

Dídac Surís

Dave Epstein

Carl Vondrick

VLM

386

08 Dec 2020

Using Text to Teach Image Retrieval

182

19 Nov 2020

Visual Pivoting for (Unsupervised) Entity Alignment

446

159

28 Sep 2020

Video Understanding as Machine Translation

291

12 Jun 2020