Evaluating Object Hallucination in Large Vision-Language Models

17 May 2023

Papers citing "Evaluating Object Hallucination in Large Vision-Language Models"

50 / 577 papers shown

Title
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language Yoonshik Kim Jaeyoon Jung 35 0 0 31 Mar 2025
Enhancing Image Resolution of Solar Magnetograms: A Latent Diffusion Model Approach Francesco P. Ramunno Paolo Massa Vitaliy Kinakh Brandon Panos A. Csillaghy S. Voloshynovskiy DiffM 53 0 0 31 Mar 2025
DASH: Detection and Assessment of Systematic Hallucinations of VLMs Maximilian Augustin Yannic Neuhaus Matthias Hein VLM 47 1 0 30 Mar 2025
Learning to Instruct for Visual Instruction Tuning Zhihan Zhou Feng Hong Jiaan Luo Jiangchao Yao Dongsheng Li Bo Han Y. Zhang Yanfeng Wang VLM 59 0 0 28 Mar 2025
Unicorn: Text-Only Data Synthesis for Vision Language Model Training Xiaomin Yu Pengxiang Ding Wenjie Zhang Siteng Huang Songyang Gao Chengwei Qin Kejian Wu Zhaoxin Fan Ziyue Qiao Donglin Wang MLLM SyDa 67 0 0 28 Mar 2025
Unveiling the Mist over 3D Vision-Language Understanding: Object-centric Evaluation with Chain-of-Analysis J. Huang Baoxiong Jia Y. Wang Ziyu Zhu Xiongkun Linghu Qing Li Song-Chun Zhu Siyuan Huang 75 3 0 28 Mar 2025
On Large Multimodal Models as Open-World Image Classifiers Alessandro Conti Massimiliano Mancini Enrico Fini Yiming Wang Paolo Rota Elisa Ricci VLM Presented at ResearchTrend Connect \| VLM on 07 May 2025 74 0 0 27 Mar 2025
Fwd2Bot: LVLM Visual Token Compression with Double Forward Bottleneck Adrian Bulat Yassine Ouali Georgios Tzimiropoulos 62 0 0 27 Mar 2025
InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression Dongchen Lu Yuyao Sun Zilu Zhang Leping Huang Jianliang Zeng Mao Shu Huo Cao 39 0 0 27 Mar 2025
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation Size Wu W. Zhang Lumin Xu Sheng Jin Zhonghua Wu Qingyi Tao Wentao Liu Wei Li Chen Change Loy VGen 64 2 0 27 Mar 2025
Vision as LoRA Han Wang Yongjie Ye Bingru Li Yuxiang Nie Jinghui Lu Jingqun Tang Yanjie Wang Can Huang 86 0 0 26 Mar 2025
Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs Zitian Wang Yue Liao Kang Rong Fengyun Rao Yibo Yang Si Liu 70 0 0 26 Mar 2025
Dynamic Pyramid Network for Efficient Multimodal Large Language Model Hao Ai Kunyi Wang Zezhou Wang H. Lu Jin Tian Yaxin Luo Peng-Fei Xing Jen-Yuan Huang Huaxia Li Gen Luo MLLM VLM 108 0 0 26 Mar 2025
Beyond Intermediate States: Explaining Visual Redundancy through Language Dingchen Yang Bowen Cao Anran Zhang Weibo Gu Winston Hu Guang Chen VLM 79 0 0 26 Mar 2025
From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment Yucheng Suo Fan Ma Linchao Zhu T. Wang Fengyun Rao Yi Yang LRM 72 0 0 26 Mar 2025
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning? Kexian Tang Junyao Gao Yanhong Zeng Haodong Duan Yanan Sun Zhening Xing Wenran Liu Kaifeng Lyu Kai-xiang Chen ELM LRM 56 1 0 25 Mar 2025
Exploring Hallucination of Large Multimodal Models in Video Understanding: Benchmark, Analysis and Mitigation Hongcheng Gao Jiashu Qu Jingyi Tang Baolong Bi Y. Liu Hongyu Chen Li Liang Li Su Qingming Huang MLLM VLM LRM 83 3 0 25 Mar 2025
RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models Mehdi Moshtaghi Siavash H. Khajavi Joni Pajarinen VLM 41 0 0 25 Mar 2025
Why Representation Engineering Works: A Theoretical and Empirical Study in Vision-Language Models Bowei Tian Xuntao Lyu Meng Liu Hongyi Wang Ang Li 44 0 0 25 Mar 2025
OCRT: Boosting Foundation Models in the Open World with Object-Concept-Relation Triad Luyao Tang Yuxuan Yuan C. L. P. Chen Zeyu Zhang Yue Huang Kun Zhang 48 0 0 24 Mar 2025
Bridging Writing Manner Gap in Visual Instruction Tuning by Creating LLM-aligned Instructions Dong Jing Nanyi Fei Zhiwu Lu 39 0 0 24 Mar 2025
Training-Free Personalization via Retrieval and Reasoning on Fingerprints Deepayan Das Davide Talon Yiming Wang Massimiliano Mancini Elisa Ricci VLM LRM 37 0 0 24 Mar 2025
TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model Cheng Yang Yang Sui Jinqi Xiao Lingyi Huang Yu Gong ... Jinghua Yan Y. Bai P. Sadayappan Xia Hu Bo Yuan VLM 53 0 0 24 Mar 2025
Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook Xu Zheng Ziqiao Weng Yuanhuiyi Lyu Lutao Jiang Haiwei Xue Bin Ren Danda Pani Paudel N. Sebe Luc Van Gool Xuming Hu 3DV 37 0 0 23 Mar 2025
4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding Wenxuan Zhu Bing Li Cheng Zheng Jinjie Mai Jun-Cheng Chen ... Abdullah Hamdi Sara Rojas Martinez Chia-Wen Lin Mohamed Elhoseiny Bernard Ghanem VLM 48 0 0 22 Mar 2025
Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models Jianing Qi Jiawei Liu Hao Tang Zhigang Zhu 101 1 0 21 Mar 2025
A Vision Centric Remote Sensing Benchmark Abduljaleel Adejumo Faegheh Yeganli Clifford Broni-Bediako Aoran Xiao Naoto Yokoya Mennatullah Siam 55 0 0 20 Mar 2025
Exploring the Reliability of Self-explanation and its Relationship with Classification in Language Model-driven Financial Analysis Han Yuan Li Zhang Zheng Ma 77 0 0 20 Mar 2025
REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models Jie M. Zhang Zheng Yuan Z. Wang Bei Yan Sibo Wang Xiangkui Cao Zonghui Guo Shiguang Shan Xilin Chen ELM 36 0 0 20 Mar 2025
MASH-VLM: Mitigating Action-Scene Hallucination in Video-LLMs through Disentangled Spatial-Temporal Representations Kyungho Bae Jinhyung Kim Sihaeng Lee Soonyoung Lee G. Lee Jinwoo Choi 62 1 0 20 Mar 2025
Mitigating Object Hallucinations in MLLMs via Multi-Frequency Perturbations Shuo Li Jiajun Sun Guodong Zheng Xiaoran Fan Yujiong Shen ... Wenming Tan Tao Ji Tao Gui Qi Zhang Xuanjing Huang AAML VLM 83 0 0 19 Mar 2025
DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies Wei Song Y. Wang Zijia Song Yadong Li Haoze Sun Weipeng Chen Zenan Zhou Jianhua Xu Jiaqi Wang Kaicheng Yu 60 2 0 18 Mar 2025
Growing a Twig to Accelerate Large Vision-Language Models Zhenwei Shao Mingyang Wang Zhou Yu Wenwen Pan Yan Yang Tao Wei H. Zhang Ning Mao Wei Chen Jun Yu VLM 59 1 0 18 Mar 2025
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration Mingyang Song Xiaoye Qu Jiawei Zhou Yu-Xi Cheng VLM 50 1 0 17 Mar 2025
HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model Tao Wang Changxu Cheng Lingfeng Wang Senda Chen Wuyue Zhao VLM 64 0 0 17 Mar 2025
Grounded Chain-of-Thought for Multimodal Large Language Models Qiong Wu Xiangcong Yang Yiyi Zhou Chenxin Fang Baiyang Song Xiaoshuai Sun Rongrong Ji LRM 73 1 0 17 Mar 2025
ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models Hao Yin Guangzong Si Zilei Wang 54 0 0 17 Mar 2025
MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling Yingyue Li Bencheng Liao Wenyu Liu Xinggang Wang Mamba 58 0 0 17 Mar 2025
Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference Hao Yin Guangzong Si Zilei Wang 46 0 0 17 Mar 2025
Similarity-Aware Token Pruning: Your VLM but Faster Ahmadreza Jeddi Negin Baghbanzadeh Elham Dolatabadi Babak Taati 3DV VLM 52 1 0 14 Mar 2025
Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection Bangzheng Li Fei-Yue Wang Wenxuan Zhou Nan Xu Ben Zhou Sheng Zhang Hoifung Poon M. Chen MLLM VLM 84 0 0 14 Mar 2025
TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models Xudong Tan Peng Ye Chongjun Tu Jianjian Cao Yaoxin Yang Lin Zhang Dongzhan Zhou Tao Chen VLM 51 0 0 13 Mar 2025
TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention Jinhao Duan Fei Kong Hao-Ran Cheng James Diffenderfer B. Kailkhura Lichao Sun Xiaofeng Zhu Xiaoshuang Shi Kaidi Xu 65 0 0 13 Mar 2025
Through the Magnifying Glass: Adaptive Perception Magnification for Hallucination-Free VLM Decoding Shunqi Mao Chaoyi Zhang Weidong Cai MLLM 60 0 0 13 Mar 2025
Learning to Inference Adaptively for Multimodal Large Language Models Zhuoyan Xu Khoi Duc Nguyen Preeti Mukherjee Saurabh Bagchi Somali Chaterji Yingyu Liang Yin Li LRM 37 1 0 13 Mar 2025
HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding Rui Yang Lin Song Yicheng Xiao Runhui Huang Yixiao Ge Ying Shan Hengshuang Zhao MLLM 62 0 0 12 Mar 2025
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models Jialv Zou Bencheng Liao Qian Zhang Wenyu Liu Xinggang Wang Mamba MLLM 77 1 0 11 Mar 2025
Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models Bozhi Luan Wengang Zhou Hao Feng Zhe Wang Xiaosong Li H. Li VLM 61 0 0 11 Mar 2025
Attention Hijackers: Detect and Disentangle Attention Hijacking in LVLMs for Hallucination Mitigation Beitao Chen Xinyu Lyu Lianli Gao Jingkuan Song H. Shen 63 1 0 11 Mar 2025
VisRL: Intention-Driven Visual Perception via Reinforced Reasoning Zhangquan Chen Xufang Luo Dongsheng Li OffRL LRM 62 3 0 10 Mar 2025