v1v2v3 (latest)

Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

AAAI Conference on Artificial Intelligence (AAAI), 2019

16 August 2019

Papers citing "Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training"

50 / 518 papers shown

Improving Visual-Semantic Embeddings by Learning Semantically-Enhanced Hard Negatives for Cross-modal Information RetrievalPattern Recognition (Pattern Recogn.), 2022

Yan Gong

Georgina Cosma

592

10 Oct 2022

Visualize Before You Write: Imagination-Guided Open-Ended Text GenerationFindings (Findings), 2022

324

07 Oct 2022

ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training

162

30 Sep 2022

Domain-Unified Prompt Representations for Source-Free Domain Generalization

262

29 Sep 2022

TVLT: Textless Vision-Language TransformerNeural Information Processing Systems (NeurIPS), 2022

348

28 Sep 2022

Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video GroundingNeural Information Processing Systems (NeurIPS), 2022

246

27 Sep 2022

CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation AlignmentInternational Conference on Learning Representations (ICLR), 2022

440

14 Sep 2022

PreSTU: Pre-Training for Scene-Text UnderstandingIEEE International Conference on Computer Vision (ICCV), 2022

Wei-Lun Chao

350

12 Sep 2022

Multi-Modal Experience Inspired AI CreationACM Multimedia (ACM MM), 2022

152

02 Sep 2022

Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical AlignmentBritish Machine Vision Conference (BMVC), 2022

311

29 Aug 2022

Prompt Tuning with Soft Context Sharing for Vision-Language ModelsNeurocomputing (Neurocomputing), 2022

Pengzhang Liu

280

29 Aug 2022

Cross-Lingual Cross-Modal Retrieval with Noise-Robust LearningACM Multimedia (ACM MM), 2022

275

26 Aug 2022

MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image PretrainingComputer Vision and Pattern Recognition (CVPR), 2022

Jianmin Bao

...

Lu Yuan

290

224

25 Aug 2022

Modeling Paragraph-Level Vision-Language Semantic Alignment for Multi-Modal Summarization

Chenhao Cui

Xinnian Liang

Shuangzhi Wu

Zhoujun Li

190

24 Aug 2022

Semi-Supervised and Unsupervised Deep Visual Learning: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

351

174

24 Aug 2022

Learning More May Not Be Better: Knowledge Transferability in Vision and Language TasksJournal of Imaging (JI), 2022

139

23 Aug 2022

Revising Image-Text Retrieval via Multi-Modal Entailment

Sujian Li

277

22 Aug 2022

Semantic-Enhanced Image ClusteringAAAI Conference on Artificial Intelligence (AAAI), 2022

190

21 Aug 2022

Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on Aligned Visual-Textual Features

314

19 Aug 2022

VLMAE: Vision-Language Masked Autoencoder

202

19 Aug 2022

Multimodal foundation models are better simulators of the human brain

Mingyu Ding

...

183

17 Aug 2022

Understanding Attention for Vision-and-Language TasksInternational Conference on Computational Linguistics (COLING), 2022

261

17 Aug 2022

GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language Pre-trainingEuropean Conference on Computer Vision (ECCV), 2022

212

08 Aug 2022

Prompt Tuning for Generative Multimodal Pretrained Models

Han Yang

Junyang Lin

An Yang

Peng Wang

Chang Zhou

Hongxia Yang

VLM LRM VPVLM

183

04 Aug 2022

Masked Vision and Language Modeling for Multi-modal Representation LearningInternational Conference on Learning Representations (ICLR), 2022

257

03 Aug 2022

Augmenting Vision Language Pretraining by Learning Codebook with Visual SemanticsInternational Conference on Pattern Recognition (ICPR), 2022

186

31 Jul 2022

ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and RetrievalInternational Conference on Content-Based Multimedia Indexing (CBMI), 2022

Lorenzo Baraldi

132

29 Jul 2022

Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text RetrievalACM Multimedia (ACM MM), 2022

Hao Wang

Guosheng Lin

Steven C. H. Hoi

165

29 Jul 2022

Temporal and cross-modal attention for audio-visual zero-shot learningEuropean Conference on Computer Vision (ECCV), 2022

Otniel-Bogdan Mercea

Thomas Hummel

A. Sophia Koepke

Zeynep Akata

205

20 Jul 2022

Explicit Image Caption EditingEuropean Conference on Computer Vision (ECCV), 2022

191

20 Jul 2022

Unifying Event Detection and Captioning as Sequence Generation via Pre-TrainingEuropean Conference on Computer Vision (ECCV), 2022

Qi Zhang

Yuqing Song

Qin Jin

179

18 Jul 2022

TS2-Net: Token Shift and Selection Transformer for Text-Video RetrievalEuropean Conference on Computer Vision (ECCV), 2022

Qin Jin

267

171

16 Jul 2022

Learning Granularity-Unified Representations for Text-to-Image Person Re-identificationACM Multimedia (ACM MM), 2022

254

149

16 Jul 2022

Learning to translate by learning to communicate

C.M. Downey

Xuhui Zhou

Leo Z. Liu

Shane Steinert-Threlkeld

197

14 Jul 2022

LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

182

11 Jul 2022

Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge TransferAAAI Conference on Artificial Intelligence (AAAI), 2022

291

05 Jul 2022

Vision-and-Language Pretraining

282

05 Jul 2022

Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representation Learning and Retrieval

198

02 Jul 2022

DALL-E for Detection: Language-driven Compositional Image Synthesis for Object Detection

343

20 Jun 2022

VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMixInternational Conference on Machine Learning (ICML), 2022

Ran Cheng

Ping Luo

209

17 Jun 2022

BridgeTower: Building Bridges Between Encoders in Vision-Language Representation LearningAAAI Conference on Artificial Intelligence (AAAI), 2022

Wanxiang Che

254

17 Jun 2022

Zero-Shot Video Question Answering via Frozen Bidirectional Language ModelsNeural Information Processing Systems (NeurIPS), 2022

485

277

16 Jun 2022

Coarse-to-Fine Vision-Language Pre-training with Fusion in the BackboneNeural Information Processing Systems (NeurIPS), 2022

...

296

152

15 Jun 2022

LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning TasksNeural Information Processing Systems (NeurIPS), 2022

Dimitris Papailiopoulos

Kangwook Lee

LMTD

576

172

14 Jun 2022

Multimodal Learning with Transformers: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

571

846

13 Jun 2022

GLIPv2: Unifying Localization and Vision-Language Understanding

Lu Yuan

296

354

12 Jun 2022

A Unified Continuous Learning Framework for Multi-modal Knowledge Discovery and Pre-training

Xuanjing Huang

155

11 Jun 2022

cViL: Cross-Lingual Training of Vision-Language Models using Knowledge DistillationInternational Conference on Pattern Recognition (ICPR), 2022

308

07 Jun 2022

ContraCLIP: Interpretable GAN generation driven by pairs of contrasting sentences

Christos Tzelepis

James Oldfield

Georgios Tzimiropoulos

Ioannis Patras

147

05 Jun 2022

ADAPT: Vision-Language Navigation with Modality-Aligned Action PromptsComputer Vision and Pattern Recognition (CVPR), 2022

Xiaodan Liang

210

31 May 2022