NLX-GPT: A Model for Natural Language Explanations in Vision and
Vision-Language Tasks

NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks

9 March 2022

Tanmoy Mukherjee

Nikos Deligiannis

Papers citing "NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks"

13 / 13 papers shown

Title
Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor Jiali Chen Xusen Hei Yuqi Xue Yuancheng Wei Jiayuan Xie Yi Cai Qing Li MLLM LRM 68 4 0 08 Dec 2024
When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations Huaizhi Ge Yiming Li Qifan Wang Yongfeng Zhang Ruixiang Tang AAML SILM 72 0 0 19 Nov 2024
Faithful and Plausible Natural Language Explanations for Image Classification: A Pipeline Approach Adam Wojciechowski Mateusz Lango Ondrej Dusek FAtt 39 0 0 30 Jul 2024
Zero-shot Translation of Attention Patterns in VQA Models to Natural Language Leonard Salewski A. Sophia Koepke Hendrik P. A. Lensch Zeynep Akata 29 2 0 08 Nov 2023
DeViL: Decoding Vision features into Language Meghal Dani Isabel Rio-Torto Stephan Alaniz Zeynep Akata VLM 32 7 0 04 Sep 2023
Knowledge-Based Counterfactual Queries for Visual Question Answering Theodoti Stoikou Maria Lymperaiou Giorgos Stamou AAML 13 1 0 05 Mar 2023
Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations Qian Yang Yunxin Li Baotian Hu Lin Ma Yuxin Ding Min Zhang 15 10 0 23 Jul 2022
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 185 403 0 13 Jul 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Mohit Bansal MLLM 249 525 0 04 Feb 2021
Show, Edit and Tell: A Framework for Editing Image Captions Fawaz Sammani Luke Melas-Kyriazi KELM DiffM 43 59 0 06 Mar 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 926 0 24 Sep 2019
e-SNLI: Natural Language Inference with Natural Language Explanations Oana-Maria Camburu Tim Rocktaschel Thomas Lukasiewicz Phil Blunsom LRM 252 620 0 04 Dec 2018
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 144 1,464 0 06 Jun 2016