Title
Cross Modal Fine-Grained Alignment via Granularity-Aware and Region-Uncertain Modeling Jiale Liu Haoming Zhou Yishu Zhu Bingzhi Chen Yuncheng Jiang 105 0 0 11 Nov 2025
ProM3E: Probabilistic Masked MultiModal Embedding Model for Ecology Srikumar Sastry Subash Khanal Aayush Dhakal Jiayu Lin Dan Cher Phoenix Jarosz Nathan Jacobs 80 0 0 04 Nov 2025
Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy Patrick Wienholt Sophie Caselitz R. Siepmann Philipp Bruners Keno K. Bressem Christiane Kuhl Jakob Nikolas Kather S. Nebelung Daniel Truhn VLM 66 1 0 10 Oct 2025
Xi+: Uncertainty Supervision for Robust Speaker Embedding Junjie Li Kong Aik Lee Duc-Tuan Truong Tianchi Liu Man-Wai Mak 160 0 0 07 Sep 2025
Multi-modal Uncertainty Robust Tree Cover Segmentation For High-Resolution Remote Sensing Images Yuanyuan Gui Wei Li Y Samuel Wang X. Xia M. Marty C. Ginzler Z. Wang 105 0 0 05 Sep 2025
Dynamic Uncertainty-aware Multimodal Fusion for Outdoor Health Monitoring Zihan Fang Zheng Lin Senkang Hu Yihang Tao Yiqin Deng Xianhao Chen Yuguang Fang 108 4 0 12 Aug 2025
TARS: MinMax Token-Adaptive Preference Strategy for MLLM Hallucination Reduction Kejia Zhang Keda Tao Zhiming Luo Chang Liu Jiasheng Tang Huan Wang LRM 236 0 0 29 Jul 2025
Uncertainty-driven Embedding Convolution Sungjun Lim Kangjun Noh Youngjun Choi Heeyoung Lee Kyungwoo Song BDL 214 0 0 28 Jul 2025
Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots Pablo Valle Chengjie Lu Shaukat Ali Aitor Arrieta 191 1 0 22 Jul 2025
UGG-ReID: Uncertainty-Guided Graph Model for Multi-Modal Object Re-Identification Xixi Wan Aihua Zheng Bo Jiang Beibei Wang Chenglong Li Jin Tang 54 0 0 07 Jul 2025
Uncertainty-o: One Model-agnostic Framework for Unveiling Uncertainty in Large Multimodal Models Ruiyang Zhang Hu Zhang Hao Fei Zhedong Zheng UQCV 198 0 0 09 Jun 2025
Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable ModelsConference on Uncertainty in Artificial Intelligence (UAI), 2025 Aishwarya Venkataramanan P. Bodesheim Joachim Denzler BDL VLM 351 2 0 08 May 2025
Entropy Heat-Mapping: Localizing GPT-Based OCR Errors with Sliding-Window Shannon Analysis Alexei Kaltchenko 286 2 0 30 Apr 2025
Feature-Based Dual Visual Feature Extraction Model for Compound Multimodal Emotion Recognition Ran Liu Fengyu Zhang Cong Yu Ling Yang Zhuofan Wen Siyuan Zhang Hailiang Yao Shun Chen Zheng Lian Yinan Han 156 1 0 21 Mar 2025
LongProLIP: A Probabilistic Vision-Language Model with Long Context Text Sanghyuk Chun Sangdoo Yun VLM 244 2 0 11 Mar 2025
Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal AlignmentIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Xuechen Wang Shiwan Zhao Haoqin Sun Hui Wang Jiaming Zhou Yong Qin 188 10 0 31 Dec 2024
Data Uncertainty-Aware Learning for Multimodal Aspect-based Sentiment Analysis Hao Yang Zhenyu Zhang Yanyan Zhao Bing Qin 196 0 0 02 Dec 2024
Probabilistic Language-Image Pre-TrainingInternational Conference on Learning Representations (ICLR), 2024 Sanghyuk Chun Wonjae Kim Song Park Sangdoo Yun MLLM VLM CLIP 1.1K 14 2 24 Oct 2024
Enhancing Emotion Recognition in Incomplete Data: A Novel Cross-Modal Alignment, Reconstruction, and Refinement Framework Haoqin Sun Shiwan Zhao Shaokai Li Xiangyu Kong Xuechen Wang Aobo Kong Jiaming Zhou Yong Chen Wenjia Zeng Yong Qin 122 9 0 12 Jul 2024
IDA-VLM: Towards Movie Understanding via ID-Aware Large Vision-Language Model Yatai Ji Shilong Zhang Jie Wu Peize Sun Weifeng Chen Xuefeng Xiao Sidi Yang Yanting Yang Ping Luo VLM 173 6 0 10 Jul 2024
PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents Junjie Wang Y. Zhang Minghao Liu Yin Zhang Yatai Ji ... Yujiu Yang Ge Zhang Ruibin Yuan Bei Chen Wenhu Chen 177 4 0 20 Jun 2024
Open-Set Recognition in the Age of Vision-Language Models Dimity Miller Niko Sünderhauf Alex Kenna Keita Mason VLM 186 10 0 25 Mar 2024
ExACT: Language-guided Conceptual Reasoning and Uncertainty Estimation for Event-based Action Recognition and More Jiazhou Zhou Xueye Zheng Yuanhuiyi Lyu Lin Wang 267 29 0 19 Mar 2024
Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training Haowei Liu Yaya Shi Haiyang Xu Chunfen Yuan Qinghao Ye ... Mingshi Yan Ji Zhang Fei Huang Bing Li Weiming Hu VLM 230 0 0 01 Mar 2024
CRSOT: Cross-Resolution Object Tracking using Unaligned Frame and Event Cameras Yabin Zhu Tianlin Li Chenglong Li Bowei Jiang Lin Zhu Zhixiang Huang Yonghong Tian Jin Tang VOS 149 10 0 05 Jan 2024
TiMix: Text-aware Image Mixing for Effective Vision-Language Pre-trainingAAAI Conference on Artificial Intelligence (AAAI), 2023 Chaoya Jiang Wei Ye Haiyang Xu Qinghao Ye Mingshi Yan Ji Zhang Shikun Zhang CLIP VLM 218 6 0 14 Dec 2023
SA-Attack: Improving Adversarial Transferability of Vision-Language Pre-training Models via Self-Augmentation Bangyan He Yang Liu Yaning Tan Tianrui Lou Yang Liu Simeng Qin AAML VLM 257 33 0 08 Dec 2023
Improved Probabilistic Image-Text RepresentationsInternational Conference on Learning Representations (ICLR), 2023 Sanghyuk Chun VLM 484 44 0 29 May 2023