Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions

6 April 2023

Papers citing "Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions"

4 / 4 papers shown

Title
Contextualized Keyword Representations for Multi-modal Retinal Image Captioning Jia-Hong Huang Ting-Wei Wu M. Worring MedIm 51 26 0 26 Apr 2021
GPT2MVS: Generative Pre-trained Transformer-2 for Multi-modal Video Summarization Jia-Hong Huang L. Murn M. Mrak M. Worring ViT 85 37 0 26 Apr 2021
Counterfactual Samples Synthesizing for Robust Visual Question Answering Long Chen Xin Yan Jun Xiao Hanwang Zhang Shiliang Pu Yueting Zhuang OOD AAML 132 287 0 14 Mar 2020
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 144 1,458 0 06 Jun 2016