Evaluating Object Hallucination in Large Vision-Language Models

17 May 2023

Papers citing "Evaluating Object Hallucination in Large Vision-Language Models"

50 / 577 papers shown

Title
FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance Haicheng Wang Zhemeng Yu Gabriele Spadaro Chen Ju Victor Quétu Enzo Tartaglione Enzo Tartaglione VLM 79 3 0 05 Jan 2025
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning Chun-Yi Kuan Hung-yi Lee AuLLM LRM 60 1 0 03 Jan 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 91 45 0 03 Jan 2025
Multimodal Preference Data Synthetic Alignment with Reward Model Robert Wijaya Ngoc-Bao Nguyen Ngai-man Cheung MLLM SyDa 49 2 0 23 Dec 2024
CoF: Coarse to Fine-Grained Image Understanding for Multi-modal Large Language Models Yeyuan Wang D. Gao Bin Li Rujiao Long Lei Yi Xiaoyan Cai Libin Yang Jinxia Zhang Shanqing Yu Qi Xuan 68 1 0 22 Dec 2024
HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding Chenxin Tao Shiqian Su X. Zhu Chenyu Zhang Zhe Chen ... Wenhai Wang Lewei Lu Gao Huang Yu Qiao Jifeng Dai MLLM VLM 102 1 0 20 Dec 2024
Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection Le Yang Ziwei Zheng Boxu Chen Zhengyu Zhao Chenhao Lin Chao Shen VLM 135 3 0 18 Dec 2024
NoisyEQA: Benchmarking Embodied Question Answering Against Noisy Queries Tao Wu Chuhao Zhou Yen Heng Wong Lin Gu Jianfei Yang 74 1 0 14 Dec 2024
Olympus: A Universal Task Router for Computer Vision Tasks Yuanze Lin Yunsheng Li Dongdong Chen Weijian Xu Ronald Clark Philip H. S. Torr VLM ObjD 117 0 0 12 Dec 2024
LLaVA-Zip: Adaptive Visual Token Compression with Intrinsic Image Information Ke Wang Hong Xuan VLM 64 2 0 11 Dec 2024
Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion Jiuhai Chen Jianwei Yang Haiping Wu Dianqi Li Jianfeng Gao Tianyi Zhou Bin Xiao VLM 58 4 0 05 Dec 2024
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning Yiwu Zhong Zhuoming Liu Yin Li Liwei Wang 82 2 0 04 Dec 2024
Who Brings the Frisbee: Probing Hidden Hallucination Factors in Large Vision-Language Model via Causality Analysis Po-Hsuan Huang Jeng-Lin Li Chin-Po Chen Ming-Ching Chang Wei-Chao Chen LRM 72 1 0 04 Dec 2024
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? Kaixiong Gong Kaituo Feng B. Li Yibing Wang Mofan Cheng ... Jiaming Han Benyou Wang Yutong Bai Z. Yang Xiangyu Yue MLLM AuLLM VLM 82 5 0 03 Dec 2024
VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning Xueqing Wu Yuheng Ding Bingxuan Li Pan Lu Da Yin Kai-Wei Chang Nanyun Peng LRM 100 3 0 03 Dec 2024
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models Byung-Kwan Lee Ryo Hachiuma Yu-Chiang Frank Wang Y. Ro Yueh-Hua Wu VLM 81 0 0 02 Dec 2024
COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training Sanghwan Kim Rui Xiao Mariana-Iuliana Georgescu Stephan Alaniz Zeynep Akata VLM 70 0 0 02 Dec 2024
Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs Qizhe Zhang Aosong Cheng Ming Lu Zhiyong Zhuo Minqi Wang Jiajun Cao Shaobo Guo Qi She Shanghang Zhang VLM 88 11 0 02 Dec 2024
ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models Xubing Ye Yukang Gan Yixiao Ge Xiao Zhang Yansong Tang 98 7 0 30 Nov 2024
Is Oracle Pruning the True Oracle? Sicheng Feng Keda Tao H. Wang VLM 63 0 0 28 Nov 2024
Orthus: Autoregressive Interleaved Image-Text Generation with Modality-Specific Heads Siqi Kou Jiachun Jin Chang Liu Ye Ma Jian Jia Quan Chen Peng Jiang Zhijie Deng Zhijie Deng DiffM VGen VLM 113 5 0 28 Nov 2024
FactCheXcker: Mitigating Measurement Hallucinations in Chest X-ray Report Generation Models Alice Heiman Xiaoman Zhang E. Chen Sung Eun Kim Pranav Rajpurkar HILM MedIm 72 0 0 27 Nov 2024
Enhancing Visual Reasoning with Autonomous Imagination in Multimodal Large Language Models J. Liu Yumeng Li Boyuan Xiao Yichang Jian Ziang Qin Tianjia Shao Yao-Xiang Ding Kun Zhou MLLM LRM 95 2 0 27 Nov 2024
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning Di Zhang Jingdi Lei Junxian Li Xunzhi Wang Y. Liu ... S. M. I. Simon X. Yang Jianbo Wu Peng Ye Wanli Ouyang Dongzhan Zhou OffRL LRM 105 6 0 27 Nov 2024
Evaluating Vision-Language Models as Evaluators in Path Planning Mohamed Aghzal Xiang Yue E. Plaku Ziyu Yao LRM 72 1 0 27 Nov 2024
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding Qing Jiang Gen Luo Yuqin Yang Yuda Xiong Yihao Chen Zhaoyang Zeng Tianhe Ren Lei Zhang VLM LRM 105 6 0 27 Nov 2024
NEMO: Can Multimodal LLMs Identify Attribute-Modified Objects? Jiaxuan Li Junwen Mo MinhDuc Vo Akihiro Sugimoto Hideki Nakayama 79 0 0 26 Nov 2024
A Topic-level Self-Correctional Approach to Mitigate Hallucinations in MLLMs Lehan He Zeren Chen Zhelun Shi Tianyu Yu Jing Shao Lu Sheng MLLM 111 1 0 26 Nov 2024
Efficient Multi-modal Large Language Models via Visual Token Grouping Minbin Huang Runhui Huang Han Shi Yimeng Chen Chuanyang Zheng Xiangguo Sun Xin Jiang Z. Li Hong Cheng VLM 82 3 0 26 Nov 2024
Exploring Aleatoric Uncertainty in Object Detection via Vision Foundation Models Peng Cui Guande He Dan Zhang Zhijie Deng Yinpeng Dong Jun Zhu 72 0 0 26 Nov 2024
Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models Hao Yi Qingyang Li Y. Hu Fuzheng Zhang Di Zhang Yong Liu VGen 67 0 0 25 Nov 2024
Are Transformers Truly Foundational for Robotics? James A. R. Marshall Andrew B. Barron AI4CE 71 0 0 25 Nov 2024
VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding Jiaqi Wang Yifei Gao Jitao Sang MLLM 107 2 0 24 Nov 2024
Is 'Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction Tuning Ji Hyeok Jung Eun Tae Kim S. Kim Joo Ho Lee Bumsoo Kim Buru Chang VLM 100 0 0 24 Nov 2024
freePruner: A Training-free Approach for Large Multimodal Model Acceleration Bingxin Xu Yuzhang Shang Yunhao Ge Qian Lou Yan Yan 94 3 0 23 Nov 2024
ICT: Image-Object Cross-Level Trusted Intervention for Mitigating Object Hallucination in Large Vision-Language Models Junzhe Chen Tianshu Zhang S. Huang Yuwei Niu Linfeng Zhang Lijie Wen Xuming Hu MLLM VLM 109 2 0 22 Nov 2024
FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression Yuke Zhu Chi Xie Shuang Liang Bo Zheng Sheng Guo 64 8 0 21 Nov 2024
Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts Honglin Li Yuting Gao Chenglu Zhu Jingdong Chen M. Yang Lin Yang MLLM 79 0 0 21 Nov 2024
Teaching VLMs to Localize Specific Objects from In-context Examples Sivan Doveh Nimrod Shabtay Wei Lin Eli Schwartz Hilde Kuehne ... Leonid Karlinsky James Glass Assaf Arbelle S. Ullman Muhammad Jehanzeb Mirza VLM 96 1 0 20 Nov 2024
MC-LLaVA: Multi-Concept Personalized Vision-Language Model Ruichuan An Sihan Yang Ming Lu Kai Zeng Yulin Luo ... Hao Liang Qi She Shanghang Zhang W. Zhang Wentao Zhang 76 5 0 18 Nov 2024
Understanding Multimodal LLMs: the Mechanistic Interpretability of Llava in Visual Question Answering Zeping Yu Sophia Ananiadou 55 0 0 17 Nov 2024
Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination Haojie Zheng Tianyang Xu Hanchi Sun Shu Pu Ruoxi Chen Lichao Sun MLLM LRM 64 8 0 15 Nov 2024
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization Weiyun Wang Zhe Chen Wenhai Wang Yue Cao Yangzhou Liu ... Jinguo Zhu X. Zhu Lewei Lu Yu Qiao Jifeng Dai LRM 55 45 1 15 Nov 2024
Advancing Fine-Grained Visual Understanding with Multi-Scale Alignment in Multi-Modal Models Wei Wang Z. Li Qi Xu Linfeng Li Yiqing Cai Botian Jiang Hang Song Xingcan Hu Pengyu Wang Li Xiao 24 1 0 14 Nov 2024
Aligned Vector Quantization for Edge-Cloud Collabrative Vision-Language Models Xiao Liu Lijun Zhang Deepak Ganesan Hui Guan VLM 30 0 0 08 Nov 2024
H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models Nhi Pham Michael Schott VLM MLLM 30 0 0 06 Nov 2024
Classification Done Right for Vision-Language Pre-Training Zilong Huang Qinghao Ye Bingyi Kang Jiashi Feng Haoqi Fan CLIP VLM 38 2 0 05 Nov 2024
HumanVLM: Foundation for Human-Scene Vision-Language Model Dawei Dai Xu Long Li Yutang Zhang YuanHui Shuyin Xia VLM MLLM 33 1 0 05 Nov 2024
DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark Haodong Li Haicheng Qu Xiaofeng Zhang 33 1 0 05 Nov 2024
Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset Yingzi Ma Jiongxiao Wang Fei-Yue Wang Siyuan Ma Jiazhao Li ... B. Li Yejin Choi M. Chen Chaowei Xiao Chaowei Xiao MU 49 6 0 05 Nov 2024