IMAGINATOR: Pre-Trained Image+Text Joint Embeddings using Word-Level Grounding of Images

12 May 2023

Papers citing "IMAGINATOR: Pre-Trained Image+Text Joint Embeddings using Word-Level Grounding of Images"

7 / 7 papers shown

Title
How Culturally Aware are Vision-Language Models? Olena Burda-Lassen Aman Chadha Shashank Goswami Vinija Jain VLM 39 0 0 24 May 2024
Overview of Memotion 3: Sentiment and Emotion Analysis of Codemixed Hinglish Memes Shreyash Mishra S. Suryavardan Megha Chakraborty Parth Patwa Anku Rani ... Amitava Das A. Sheth Manoj Kumar Chinnakotla Asif Ekbal Srijan Kumar 22 5 0 12 Sep 2023
Findings of Factify 2: Multimodal Fake News Detection S. Suryavardan Shreyash Mishra Megha Chakraborty Parth Patwa Anku Rani ... Amitava Das Amit P. Sheth Manoj Kumar Chinnakotla Asif Ekbal Srijan Kumar 17 14 0 19 Jul 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 390 4,125 0 28 Jan 2022
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 298 3,693 0 11 Feb 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
Efficient Estimation of Word Representations in Vector Space Tomáš Mikolov Kai Chen G. Corrado J. Dean 3DV 230 31,253 0 16 Jan 2013