Title
MINT: Multimodal Instruction Tuning with Multimodal Interaction Grouping Xiaojun Shan Qi Cao Xing Han Haofei Yu Paul Liang 240 1 0 02 Jun 2025
AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs Xuanwen Ding Chengjun Pan Zejun Li Jiwen Zhang Siyuan Wang Zhongyu Wei 208 0 0 27 May 2025
Unleashing the Potentials of Likelihood Composition for Multi-modal Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Shitian Zhao Renrui Zhang Xu Luo Yan Wang Shanghang Zhang Peng Gao 191 0 0 01 Oct 2024
HEMM: Holistic Evaluation of Multimodal Foundation Models Paul Pu Liang Akshay Goindani Talha Chafekar Leena Mathur Haofei Yu Ruslan Salakhutdinov Louis-Philippe Morency 274 24 0 03 Jul 2024
EmbSpatial-Bench: Benchmarking Spatial Understanding for Embodied Tasks with Large Vision-Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024 Mengfei Du Binhao Wu Zejun Li Xuanjing Huang Zhongyu Wei 221 42 0 09 Jun 2024
VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models Zejun Li Ruipu Luo Jiwen Zhang Minghui Qiu Zhongyu Wei Zhongyu Wei LRM MLLM 601 31 0 27 May 2024
What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and BiasesNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024 A. M. H. Tiong Junqi Zhao Boyang Albert Li Junnan Li Guosheng Lin Caiming Xiong 191 12 0 03 Apr 2024
SoMeLVLM: A Large Vision Language Model for Social Media Processing Xinnong Zhang Haoyu Kuang Xinyi Mou Hanjia Lyu Kun Wu Siming Chen Jiebo Luo Xuanjing Huang Zhongyu Wei MLLM 181 12 0 20 Feb 2024
Causal-CoG: A Causal-Effect Look at Context Generation for Boosting Multi-modal Language ModelsComputer Vision and Pattern Recognition (CVPR), 2023 Shitian Zhao Zhuowan Li Yadong Lu Yaoyao Liu Yan Wang LRM 151 14 0 09 Dec 2023
CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models Wenhong Zhu Hong-ping Hao Zhiwei He Yun-Ze Song Yumeng Zhang Hanxu Hu Yiran Wei Rui Wang Hongyuan Lu AAML ELM 160 15 0 15 Nov 2023
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction TuningInternational Conference on Computational Linguistics (COLING), 2023 Yifan Du Hangyu Guo Kun Zhou Wayne Xin Zhao Jinpeng Wang Chuyuan Wang Mingchen Cai Ruihua Song Ji-Rong Wen VLM MLLM LRM 455 27 0 02 Nov 2023
An Examination of the Compositionality of Large Generative Vision-Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023 Teli Ma Rong Li Junwei Liang CoGe 201 6 0 21 Aug 2023