v1v2v3 (latest)

Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

AAAI Conference on Artificial Intelligence (AAAI), 2019

16 August 2019

Papers citing "Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training"

50 / 518 papers shown

Multi-modal Machine Learning in Engineering Design: A Review and Future DirectionsJournal of Computing and Information Science in Engineering (JCISE), 2023

397

14 Feb 2023

Paparazzi: A Deep Dive into the Capabilities of Language and Vision Models for Grounding Viewpoint DescriptionsFindings (Findings), 2023

249

13 Feb 2023

VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information RetrievalACM Transactions on Knowledge Discovery from Data (TKDD), 2023

326

13 Feb 2023

Actional Atomic-Concept Learning for Demystifying Vision-Language NavigationAAAI Conference on Artificial Intelligence (AAAI), 2023

Xiaodan Liang

342

13 Feb 2023

Unified Vision-Language Representation Modeling for E-Commerce Same-Style Products RetrievalThe Web Conference (WWW), 2023

343

10 Feb 2023

Learning to Agree on Vision Attention for Visual Commonsense ReasoningIEEE transactions on multimedia (IEEE TMM), 2023

281

04 Feb 2023

ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic ConsistencyInternational Conference on Learning Representations (ICLR), 2023

Hang Xu

Xiaojun Chang

Xiaodan Liang

217

31 Jan 2023

Effective End-to-End Vision Language Pretraining with Semantic Visual LossIEEE transactions on multimedia (IEEE TMM), 2023

Xiaofeng Yang

Fayao Liu

Guosheng Lin

VLM

102

18 Jan 2023

CLIP the Gap: A Single Domain Generalization Approach for Object DetectionComputer Vision and Pattern Recognition (CVPR), 2023

294

140

13 Jan 2023

See, Think, Confirm: Interactive Prompting Between Vision and Language Models for Knowledge-based Visual Reasoning

Chuang Gan

301

12 Jan 2023

Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility StudyEuropean Conference on Information Retrieval (ECIR), 2023

Mariya Hendriksen

Svitlana Vakulenko

E. Kuiper

Maarten de Rijke

319

12 Jan 2023

Multimodal Inverse Cloze Task for Knowledge-based Visual Question AnsweringEuropean Conference on Information Retrieval (ECIR), 2023

Paul Lerner

O. Ferret

C. Guinaudeau

249

11 Jan 2023

Universal Multimodal Representation for Language UnderstandingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Rui Wang

299

09 Jan 2023

Text2Poster: Laying out Stylized Texts on Retrieved ImagesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022

161

06 Jan 2023

Test of Time: Instilling Video-Language Models with a Sense of TimeComputer Vision and Pattern Recognition (CVPR), 2023

Piyush Bagad

Makarand Tapaswi

Cees G. M. Snoek

485

05 Jan 2023

GIVL: Improving Geographical Inclusivity of Vision-Language Models with Pre-Training MethodsComputer Vision and Pattern Recognition (CVPR), 2023

Govind Thattai

202

05 Jan 2023

BagFormer: Better Cross-Modal Retrieval via bag-wise interaction

173

29 Dec 2022

On Transforming Reinforcement Learning by Transformer: The Development TrajectoryIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Shengchao Hu

Li Shen

347

29 Dec 2022

Position-guided Text Prompt for Vision-Language Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2022

199

19 Dec 2022

MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal Contributions in Vision and Language Models & TasksAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

Letitia Parcalabescu

Anette Frank

239

15 Dec 2022

NLIP: Noise-robust Language-Image Pre-trainingAAAI Conference on Artificial Intelligence (AAAI), 2022

Runhu Huang

Yanxin Long

Jianhua Han

Hang Xu

Xiwen Liang

Chunjing Xu

Xiaodan Liang

VLM

303

14 Dec 2022

CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised Video Anomaly DetectionInternational Conference on Information Photonics (ICIP), 2022

Kevin Hyekang Joo

Khoa T. Vo

Kashu Yamazaki

Ngan Le

259

105

09 Dec 2022

Vision and Structured-Language Pretraining for Cross-Modal Food RetrievalComputer Vision and Image Understanding (CVIU), 2022

287

08 Dec 2022

CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for Referring Image SegmentationNeural Information Processing Systems (NeurIPS), 2022

Xiaodan Liang

251

04 Dec 2022

Protein Language Models and Structure Prediction: Connection and Progression

Cheng Tan

Stan Z. Li

222

30 Nov 2022

Improving Commonsense in Vision-Language Models via Knowledge Graph RiddlesComputer Vision and Pattern Recognition (CVPR), 2022

Lu Yuan

153

29 Nov 2022

Unified Multimodal Model with Unlikelihood Training for Visual DialogACM Multimedia (ACM MM), 2022

200

23 Nov 2022

Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent AttentionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

196

21 Nov 2022

ClipCrop: Conditioned Cropping Driven by Vision-Language Model

Mingxi Cheng

Ji Li

Yoichi Sato

159

21 Nov 2022

You Need Multiple Exiting: Dynamic Early Exiting for Accelerating Unified Vision Language ModelComputer Vision and Pattern Recognition (CVPR), 2022

Yaqing Wang

Caiwen Ding

Dongkuan Xu

224

21 Nov 2022

Detect Only What You Specify : Object Detection with Linguistic Target

Moyuru Yamada

ObjD VLM

18 Nov 2022

Towards All-in-one Pre-training via Maximizing Multi-modal Mutual InformationComputer Vision and Pattern Recognition (CVPR), 2022

Weijie Su

Gao Huang

Yu Qiao

Xiaogang Wang

Jie Zhou

Jifeng Dai

249

17 Nov 2022

CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal Pre-trained KnowledgeThe Web Conference (WWW), 2022

Linli Yao

Wei Chen

Qin Jin

VLM

353

17 Nov 2022

Grafting Pre-trained Models for Multimodal Headline GenerationConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Di Yin

270

14 Nov 2022

CLOP: Video-and-Language Pre-Training with Knowledge RegularizationsACM Multimedia (ACM MM), 2022

186

07 Nov 2022

Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object DetectionIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2022

Jianhua Han

Xiaodan Liang

258

02 Nov 2022

Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities

Khyathi Chandu

A. Geramifard

215

30 Oct 2022

DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-AttentionACM Transactions on Knowledge Discovery from Data (TKDD), 2021

Xuancheng Ren

Yuexian Zou

225

28 Oct 2022

Open-vocabulary Semantic Segmentation with Frozen Vision-Language ModelsBritish Machine Vision Conference (BMVC), 2022

163

27 Oct 2022

Masked Vision-Language Transformer in FashionMachine Intelligence Research (MIR), 2022

Luc Van Gool

261

27 Oct 2022

End-to-End Multimodal Representation Learning for Video Dialog

225

26 Oct 2022

Learning by Hallucinating: Vision-Language Pre-training with Weak SupervisionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022

183

24 Oct 2022

Fine-grained Semantic Alignment Network for Weakly Supervised Temporal Language GroundingConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

189

21 Oct 2022

VTC: Improving Video-Text Retrieval with User CommentsEuropean Conference on Computer Vision (ECCV), 2022

Christian Rupprecht

245

19 Oct 2022

LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine TranslationConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Hongcheng Guo

Jiaheng Liu

Haoyang Huang

Jian Yang

Zhoujun Li

Dongdong Zhang

Zheng Cui

Furu Wei

208

19 Oct 2022

Contrastive Language-Image Pre-Training with Knowledge GraphsNeural Information Processing Systems (NeurIPS), 2022

Gao Huang

193

17 Oct 2022

EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive PruningAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

215

14 Oct 2022

Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-trainingConference of the European Chapter of the Association for Computational Linguistics (EACL), 2022

323

14 Oct 2022

Understanding Embodied Reference with Touch-Line TransformerInternational Conference on Learning Representations (ICLR), 2022

Hao Zhao

326

11 Oct 2022

Transformer-based Localization from Embodied Dialog with Large-scale Pre-training

Meera Hahn

James M. Rehg

LM&Ro

171

10 Oct 2022