Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering

Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering

2 May 2022

A. Piergiovanni

Papers citing "Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering"

9 / 9 papers shown

Title
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks Weicheng Kuo A. Piergiovanni Dahun Kim Xiyang Luo Benjamin Caine ... Luowei Zhou Andrew M. Dai Zhifeng Chen Claire Cui A. Angelova MLLM VLM 12 23 0 29 Mar 2023
CoCa: Contrastive Captioners are Image-Text Foundation Models Jiahui Yu Zirui Wang Vijay Vasudevan Legg Yeung Mojtaba Seyedhosseini Yonghui Wu VLM CLIP OffRL 27 1,249 0 04 May 2022
Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning Da Yin Liunian Harold Li Ziniu Hu Nanyun Peng Kai-Wei Chang 83 52 0 14 Sep 2021
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning Krishna Srinivasan K. Raman Jiecao Chen Michael Bendersky Marc Najork VLM 187 307 0 02 Mar 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 273 1,077 0 17 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Mohit Bansal MLLM 249 518 0 04 Feb 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 922 0 24 Sep 2019
A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension Yue Liao Si Liu Guanbin Li Fei-Yue Wang Yanjie Chen Chao Qian Bo-wen Li ObjD 62 174 0 16 Sep 2019