VQA: Visual Question Answering

3 May 2015

Devi Parikh

Papers citing "VQA: Visual Question Answering"

50 / 792 papers shown

Title
Is GPT-3 a Good Data Annotator? Bosheng Ding Chengwei Qin Linlin Liu Yew Ken Chia Shafiq R. Joty Boyang Albert Li Lidong Bing 24 231 0 20 Dec 2022
Position-guided Text Prompt for Vision-Language Pre-training Alex Jinpeng Wang Pan Zhou Mike Zheng Shou Shuicheng Yan VLM 19 37 0 19 Dec 2022
SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering Feiqi Cao Siwen Luo F. Núñez Zean Wen Josiah Poon Caren Han GNN 18 4 0 16 Dec 2022
Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models Bernd Bohnet Vinh Q. Tran Pat Verga Roee Aharoni D. Andor ... Michael Collins Dipanjan Das Donald Metzler Slav Petrov Kellie Webster 41 59 0 15 Dec 2022
REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi RALM VLM 38 88 0 10 Dec 2022
OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models Jinze Bai Rui Men Han Yang Xuancheng Ren Kai Dang ... Wenhang Ge Jianxin Ma Junyang Lin Jingren Zhou Chang Zhou 37 15 0 08 Dec 2022
See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation Hao Li Yizhi Zhang Junzhe Zhu Shaoxiong Wang Michelle A. Lee Huazhe Xu Edward H. Adelson Li Fei-Fei Ruohan Gao Jiajun Wu 22 58 0 07 Dec 2022
Generalizing Multiple Object Tracking to Unseen Domains by Introducing Natural Language Representation En Yu Songtao Liu Zhuoling Li Jinrong Yang Zeming Li Shoudong Han Wenbing Tao 23 12 0 03 Dec 2022
What do you MEME? Generating Explanations for Visual Semantic Role Labelling in Memes Shivam Sharma Siddhant Agarwal Tharun Suresh Preslav Nakov Md. Shad Akhtar Tanmoy Charkraborty VLM 20 18 0 01 Dec 2022
Super-CLEVR: A Virtual Benchmark to Diagnose Domain Robustness in Visual Reasoning Zhuowan Li Xingrui Wang Elias Stengel-Eskin Adam Kortylewski Wufei Ma Benjamin Van Durme Max Planck Institute for Informatics OOD LRM 21 57 0 01 Dec 2022
Unified Multimodal Model with Unlikelihood Training for Visual Dialog Zihao Wang Junli Wang Changjun Jiang MLLM 21 10 0 23 Nov 2022
Open-vocabulary Attribute Detection M. A. Bravo Sudhanshu Mittal Simon Ging Thomas Brox VLM ObjD 14 30 0 23 Nov 2022
Smart Agriculture : A Novel Multilevel Approach for Agricultural Risk Assessment over Unstructured Data Hasna Najmi M. Mikram Maryem Rhanoui Siham Yousfi 14 0 0 22 Nov 2022
A Short Survey of Systematic Generalization Yuanpeng Li AI4CE 27 1 0 22 Nov 2022
Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention Zineng Tang Jaemin Cho Jie Lei Mohit Bansal VLM 21 9 0 21 Nov 2022
Cross-Modal Contrastive Learning for Robust Reasoning in VQA Qinjie Zheng Chaoyue Wang Daqing Liu Dadong Wang Dacheng Tao LRM 21 0 0 21 Nov 2022
CL-CrossVQA: A Continual Learning Benchmark for Cross-Domain Visual Question Answering Yao Zhang Haokun Chen A. Frikha Yezi Yang Denis Krompass Gengyuan Zhang Jindong Gu Volker Tresp VLM LRM 16 7 0 19 Nov 2022
Cross-Modal Adapter for Text-Video Retrieval Haojun Jiang Jianke Zhang Rui Huang Chunjiang Ge Zanlin Ni Jiwen Lu Jie Zhou S. Song Gao Huang 40 36 0 17 Nov 2022
AlignVE: Visual Entailment Recognition Based on Alignment Relations Biwei Cao Jiuxin Cao Jie Gui Jiayun Shen Bo Liu Lei He Yuan Yan Tang James T. Kwok 18 7 0 16 Nov 2022
MapQA: A Dataset for Question Answering on Choropleth Maps Shuaichen Chang David Palzer Jialin Li Eric Fosler-Lussier N. Xiao 19 40 0 15 Nov 2022
Navigating Connected Memories with a Task-oriented Dialog System Seungwhan Moon Satwik Kottur A. Geramifard Babak Damavandi 35 2 0 15 Nov 2022
PromptCap: Prompt-Guided Task-Aware Image Captioning Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A. Smith Jiebo Luo 38 101 0 15 Nov 2022
Versatile Diffusion: Text, Images and Variations All in One Diffusion Model Xingqian Xu Zhangyang Wang Eric Zhang Kai Wang Humphrey Shi DiffM 28 181 0 15 Nov 2022
Multi-VQG: Generating Engaging Questions for Multiple Images Min-Hsuan Yeh Vicent Chen Ting-Hao Haung Lun-Wei Ku CoGe 13 7 0 14 Nov 2022
Towards Reasoning-Aware Explainable VQA Rakesh Vaideeswaran Feng Gao Abhinav Mathur Govind Thattai LRM 27 3 0 09 Nov 2022
lilGym: Natural Language Visual Reasoning with Reinforcement Learning Anne Wu Kianté Brantley Noriyuki Kojima Yoav Artzi ReLM OffRL LRM 19 3 0 03 Nov 2022
Globally Gated Deep Linear Networks Qianyi Li H. Sompolinsky AI4CE 14 10 0 31 Oct 2022
Unsupervised Audio-Visual Lecture Segmentation Darshan Singh Anchit Gupta C. V. Jawahar Makarand Tapaswi VOS 16 4 0 29 Oct 2022
A Survey on Causal Representation Learning and Future Work for Medical Image Analysis Chang-Tien Lu OOD BDL CML MedIm 24 0 0 28 Oct 2022
Generalization Differences between End-to-End and Neuro-Symbolic Vision-Language Reasoning Systems Wang Zhu Jesse Thomason Robin Jia VLM OOD NAI LRM 26 6 0 26 Oct 2022
Multi-Viewpoint and Multi-Evaluation with Felicitous Inductive Bias Boost Machine Abstract Reasoning Ability Qinglai Wei Diancheng Chen Beiming Yuan 32 10 0 26 Oct 2022
Multilingual Multimodal Learning with Machine Translated Text Chen Qiu Dan Oneaţă Emanuele Bugliarello Stella Frank Desmond Elliott 40 13 0 24 Oct 2022
CPL: Counterfactual Prompt Learning for Vision and Language Models Xuehai He Diji Yang Weixi Feng Tsu-jui Fu Arjun Reddy Akula Varun Jampani P. Narayana Sugato Basu William Yang Wang X. Wang VPVLM VLM 45 15 0 19 Oct 2022
Dense but Efficient VideoQA for Intricate Compositional Reasoning Jihyeon Janel Lee Wooyoung Kang Eun-Sol Kim CoGe 11 3 0 19 Oct 2022
ULN: Towards Underspecified Vision-and-Language Navigation Weixi Feng Tsu-jui Fu Yujie Lu William Yang Wang 35 4 0 18 Oct 2022
Transformer-based Localization from Embodied Dialog with Large-scale Pre-training Meera Hahn James M. Rehg LM&Ro 32 4 0 10 Oct 2022
Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning Q. Si Yuanxin Liu Fandong Meng Zheng Lin Peng Fu Yanan Cao Weiping Wang Jie Zhou 32 23 0 10 Oct 2022
Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing Tim Siebert Kai Norman Clasen Mahdyar Ravanbakhsh Begum Demir 41 20 0 10 Oct 2022
Locate before Answering: Answer Guided Question Localization for Video Question Answering Tianwen Qian Ran Cui Jingjing Chen Pai Peng Xiao-Wei Guo Yu-Gang Jiang 24 17 0 05 Oct 2022
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning Xu Yang Hanwang Zhang Chongyang Gao Jianfei Cai MLLM 31 10 0 04 Oct 2022
TVLT: Textless Vision-Language Transformer Zineng Tang Jaemin Cho Yixin Nie Mohit Bansal VLM 49 28 0 28 Sep 2022
Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image Generation Xintian Wu Hanbin Zhao Liangli Zheng Shouhong Ding Xi Li 29 13 0 28 Sep 2022
DRAMA: Joint Risk Localization and Captioning in Driving Srikanth Malla Chiho Choi Isht Dwivedi Joonhyang Choi Jiachen Li 96 87 0 22 Sep 2022
Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark A. Kalyan ELM ReLM LRM 211 1,105 0 20 Sep 2022
Enabling Conversational Interaction with Mobile UI using Large Language Models Bryan Wang Gang Li Yang Li 173 132 0 18 Sep 2022
ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots Yu-Chung Hsiao Fedir Zubach Maria Wang Jindong Chen Victor Carbune Jason Lin Maria Wang Yun Zhu Jindong Chen RALM 152 25 0 16 Sep 2022
VIPHY: Probing "Visible" Physical Commonsense Knowledge Shikhar Singh Ehsan Qasemi Muhao Chen 38 6 0 15 Sep 2022
ImageArg: A Multi-modal Tweet Dataset for Image Persuasiveness Mining Zhexiong Liu M. Guo Y. Dai Diane Litman 16 15 0 14 Sep 2022
Ask Before You Act: Generalising to Novel Environments by Asking Questions Ross Murphy S. Mosesov Javier Leguina Peral Thymo ter Doest LRM 22 0 0 10 Sep 2022
Diffusion Models: A Comprehensive Survey of Methods and Applications Ling Yang Zhilong Zhang Yingxia Shao Shenda Hong Runsheng Xu Yue Zhao Wentao Zhang Bin Cui Ming-Hsuan Yang DiffM MedIm 224 1,300 0 02 Sep 2022