Visual Entailment: A Novel Task for Fine-Grained Image Understanding

20 January 2019

Papers citing "Visual Entailment: A Novel Task for Fine-Grained Image Understanding"

50 / 229 papers shown

Title
What's Pulling the Strings? Evaluating Integrity and Attribution in AI Training and Inference through Concept Shift Jiamin Chang H. Li Hammond Pearce Ruoxi Sun Bo-wen Li Minhui Xue 30 0 0 28 Apr 2025
Taxonomy-Aware Evaluation of Vision-Language Models Vésteinn Snæbjarnarson Kevin Du Niklas Stoehr Serge J. Belongie Ryan Cotterell Nico Lang Stella Frank 24 0 0 07 Apr 2025
LiveVQA: Live Visual Knowledge Seeking Mingyang Fu Yuyang Peng Benlin Liu Yao Wan D. Z. Chen 26 0 0 07 Apr 2025
Extremely Simple Out-of-distribution Detection for Audio-visual Generalized Zero-shot Learning Yang Liu X. Zhang Jiale Du Xinbo Gao Jungong Han OODD 44 0 0 28 Mar 2025
Re-Imagining Multimodal Instruction Tuning: A Representation View Yiyang Liu James Liang Ruixiang Tang Yugyung Lee Majid Rabbani ... Raghuveer M. Rao Lifu Huang Dongfang Liu Qifan Wang Cheng Han 44 0 0 02 Mar 2025
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering Zeqing Wang Wentao Wan Qiqing Lao Runmeng Chen Minjie Lang Keze Wang Liang Lin Liang Lin LRM 92 3 0 17 Feb 2025
PuzzleGPT: Emulating Human Puzzle-Solving Ability for Time and Location Prediction Hammad A. Ayyubi Xuande Feng Junzhang Liu Xudong Lin Zhecan Wang Shih-Fu Chang 35 0 0 24 Jan 2025
Vision-and-Language Navigation Today and Tomorrow: A Survey in the Era of Foundation Models Yue Zhang Ziqiao Ma Jialu Li Yanyuan Qiao Zun Wang J. Chai Qi Wu Mohit Bansal Parisa Kordjamshidi LRM 51 17 0 31 Dec 2024
Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization Yue Zhang Liqiang Jing Vibhav Gogate 113 2 0 19 Dec 2024
Beyond Accuracy: On the Effects of Fine-tuning Towards Vision-Language Model's Prediction Rationality Qitong Wang Tang Li Kien X. Nguyen Xi Peng 70 0 0 17 Dec 2024
Renaissance: Investigating the Pretraining of Vision-Language Encoders Clayton Fields C. Kennington VLM 14 0 0 11 Nov 2024
CAMEL-Bench: A Comprehensive Arabic LMM Benchmark Sara Ghaboura Ahmed Heakl Omkar Thawakar Ali Alharthi Ines Riahi Abduljalil Saif Jorma T. Laaksonen F. Khan Salman Khan Rao Muhammad Anwer 34 0 0 24 Oct 2024
CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training Zhiyuan Ma Jianjun Li Guohui Li Kaiyan Huang VLM 40 9 0 16 Oct 2024
Efficient and Effective Universal Adversarial Attack against Vision-Language Pre-training Models Fan Yang Yihao Huang K. Wang Ling Shi G. Pu Yang Liu H. Wang AAML VLM 18 2 0 15 Oct 2024
ATLAS: Adapter-Based Multi-Modal Continual Learning with a Two-Stage Learning Strategy Hong Li Zhiquan Tan Xingyu Li Weiran Huang CLL MoMe 13 1 0 14 Oct 2024
Recent Advances of Multimodal Continual Learning: A Comprehensive Survey Dianzhi Yu Xinni Zhang Yankai Chen Aiwei Liu Yifei Zhang Philip S. Yu Irwin King VLM CLL 36 9 0 07 Oct 2024
NL-Eye: Abductive NLI for Images Mor Ventura Michael Toker Nitay Calderon Zorik Gekhman Yonatan Bitton Roi Reichart 28 1 0 03 Oct 2024
M $^2$ PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning Taowen Wang Yiyang Liu James Liang Junhan Zhao Yiming Cui ... Zenglin Xu Cheng Han Lifu Huang Qifan Wang Dongfang Liu MLLM VLM LRM 20 15 0 24 Sep 2024
Finetuning CLIP to Reason about Pairwise Differences Dylan Sam Devin Willmott João Dias Semedo J. Zico Kolter VLM 51 3 0 15 Sep 2024
Reference-free Hallucination Detection for Large Vision-Language Models Qing Li Chenyang Lyu Jiahui Geng Derui Zhu Maxim Panov Fakhri Karray 11 0 0 11 Aug 2024
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks Juhwan Choi Junehyoung Kwon Jungmin Yun Seunguk Yu Youngbin Kim 36 0 0 29 Jul 2024
I Know About "Up"! Enhancing Spatial Reasoning in Visual Language Models Through 3D Reconstruction Zaiqiao Meng Hao Zhou Yifang Chen 20 3 0 19 Jul 2024
Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning Mustafa Dogan .Ilker Kesen Iacer Calixto Aykut Erdem Erkut Erdem LRM 21 1 0 17 Jul 2024
Decompose and Compare Consistency: Measuring VLMs' Answer Reliability via Task-Decomposition Consistency Comparison Qian Yang Weixiang Yan Aishwarya Agrawal CoGe 21 1 0 10 Jul 2024
Explainable Image Recognition via Enhanced Slot-attention Based Classifier Bowen Wang Liangzhi Li Jiahao Zhang Yuta Nakashima Hajime Nagahara OCL 31 0 0 08 Jul 2024
CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation Yuxuan Wang Yijun Liu Fei Yu Chen Huang Kexin Li Zhiguo Wan Wanxiang Che VLM CoGe 19 0 0 01 Jul 2024
Transferring Knowledge from Large Foundation Models to Small Downstream Models Shikai Qiu Boran Han Danielle C. Maddix Shuai Zhang Yuyang Wang Andrew Gordon Wilson 17 1 0 11 Jun 2024
Advancing Grounded Multimodal Named Entity Recognition via LLM-Based Reformulation and Box-Based Segmentation Jinyuan Li Ziyan Li Han Li Jianfei Yu Rui Xia Di Sun Gang Pan 30 2 0 11 Jun 2024
One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models Hao Fang Jiawei Kong Wenbo Yu Bin Chen Jiawei Li Hao Wu Ke Xu Ke Xu AAML VLM 30 13 0 08 Jun 2024
Universal Adversarial Perturbations for Vision-Language Pre-trained Models Pengfei Zhang Zi Huang Guangdong Bai AAML 24 11 0 09 May 2024
POV Learning: Individual Alignment of Multimodal Models using Human Perception Simon Werner Katharina Christ Laura Bernardy Marion G. Müller Achim Rettinger 16 0 0 07 May 2024
HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts Wonjae Kim Sanghyuk Chun Taekyung Kim Dongyoon Han Sangdoo Yun 39 7 0 26 Apr 2024
MARVEL: Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning Yifan Jiang Jiarui Zhang Kexuan Sun Zhivar Sourati Kian Ahrabian Kaixin Ma Filip Ilievski Jay Pujara LRM 27 12 0 21 Apr 2024
Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination Dingchen Yang Bowen Cao Guang Chen Changjun Jiang 46 7 0 21 Mar 2024
Effectiveness Assessment of Recent Large Vision-Language Models Yao Jiang Xinyu Yan Ge-Peng Ji Keren Fu Meijun Sun Huan Xiong Deng-Ping Fan Fahad Shahbaz Khan 24 14 0 07 Mar 2024
VEglue: Testing Visual Entailment Systems via Object-Aligned Joint Erasing Zhiyuan Chang Mingyang Li Junjie Wang Cheng Li Qing Wang 22 0 0 05 Mar 2024
TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning Kate Sanders Nathaniel Weir Benjamin Van Durme LRM 31 1 0 29 Feb 2024
Probing Multimodal Large Language Models for Global and Local Semantic Representations Mingxu Tao Quzhe Huang Kun Xu Liwei Chen Yansong Feng Dongyan Zhao 19 5 0 27 Feb 2024
ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks Yang Liu Xiaomin Yu Gongyu Zhang Christos Bergeles Prokar Dasgupta Alejandro Granados Sebastien Ourselin 35 0 0 27 Feb 2024
Multimodal Instruction Tuning with Conditional Mixture of LoRA Ying Shen Zhiyang Xu Qifan Wang Yu Cheng Wenpeng Yin Lifu Huang 31 12 0 24 Feb 2024
Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment Yunxin Li Xinyu Chen Baotian Hu Haoyuan Shi Min-Ling Zhang 29 0 0 21 Feb 2024
Assessing News Thumbnail Representativeness: Counterfactual text can enhance the cross-modal matching ability Yejun Yoon Seunghyun Yoon Kunwoo Park 13 0 0 17 Feb 2024
LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition Jinyuan Li Han Li Di Sun Jiahao Wang Wenkun Zhang Zan Wang Gang Pan 10 7 0 15 Feb 2024
LCV2: An Efficient Pretraining-Free Framework for Grounded Visual Question Answering Yuhan Chen Lumei Su Lihua Chen Zhiwei Lin MLLM 12 1 0 29 Jan 2024
Dynamic Transformer Architecture for Continual Learning of Multimodal Tasks Yuliang Cai Mohammad Rostami 25 4 0 27 Jan 2024
Memory-Inspired Temporal Prompt Interaction for Text-Image Classification Xinyao Yu Hao Sun Ziwei Niu Rui Qin Zhenjia Bai Yen-Wei Chen Lanfen Lin VLM 8 2 0 26 Jan 2024
p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models Haoyuan Wu Xinyun Zhang Peng Xu Peiyu Liao Xufeng Yao Bei Yu VLM 9 0 0 17 Dec 2023
MAFA: Managing False Negatives for Vision-Language Pre-training Jaeseok Byun Dohoon Kim Taesup Moon VLM 13 3 0 11 Dec 2023
Localized Symbolic Knowledge Distillation for Visual Commonsense Models J. Park Jack Hessel Khyathi Raghavi Chandu Paul Pu Liang Ximing Lu ... Youngjae Yu Qiuyuan Huang Jianfeng Gao Ali Farhadi Yejin Choi VLM 8 11 0 08 Dec 2023
Good Questions Help Zero-Shot Image Reasoning Kaiwen Yang Tao Shen Xinmei Tian Xiubo Geng Chongyang Tao Dacheng Tao Tianyi Zhou LRM 22 7 0 04 Dec 2023