Title
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025
Benchmarking Vision Language Models on German Factual Data René Peinl Vincent Tischler CoGe 50 0 0 15 Apr 2025
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models Jinguo Zhu Weiyun Wang Zhe Chen Z. Liu Shenglong Ye ... D. Lin Yu Qiao Jifeng Dai Wenhai Wang W. Wang MLLM VLM 63 6 1 14 Apr 2025
XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery? Fengxiang Wang H. Wang Mingshuo Chen Di Wang Yulin Wang ... L. Lan Wenjing Yang J. Zhang Zhiyuan Liu Maosong Sun 52 2 0 31 Mar 2025
TDRI: Two-Phase Dialogue Refinement and Co-Adaptation for Interactive Image Generation Yuheng Feng Jianhui Wang Kun Li Sida Li Tianyu Shi Haoyue Han Miao Zhang Xueqian Wang DiffM 41 0 0 22 Mar 2025
PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks Feng Ni Kui Huang Yao Lu Wenyu Lv Guanzhong Wang Zeyu Chen Y. Liu VLM 39 0 0 06 Mar 2025
Task-Oriented 6-DoF Grasp Pose Detection in Clutters An-Lan Wang Nuo Chen Kun-Yu Lin Li Yuan-Ming Wei-Shi Zheng 43 2 0 24 Feb 2025
Cross-Modal Synergies: Unveiling the Potential of Motion-Aware Fusion Networks in Handling Dynamic and Static ReID Scenarios Fuxi Ling Hongye Liu Guoqiang Huang Jing Li Hong Wu Zhihao Tang 51 0 0 02 Feb 2025
SELU: Self-Learning Embodied MLLMs in Unknown Environments Boyu Li Haobin Jiang Ziluo Ding Xinrun Xu Haoran Li Dongbin Zhao Zongqing Lu LRM 22 2 0 04 Oct 2024
A Survey on Multimodal Benchmarks: In the Era of Large AI Models Lin Li Guikun Chen Hanrong Shi Jun Xiao Long Chen 34 8 0 21 Sep 2024
A Survey on Evaluation of Multimodal Large Language Models Jiaxing Huang Jingyi Zhang LM&MA ELM LRM 43 20 0 28 Aug 2024
MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans? Yi-Fan Zhang Huanyu Zhang Haochen Tian Chaoyou Fu Shuangqing Zhang ... Qingsong Wen Zhang Zhang L. Wang Rong Jin Tieniu Tan OffRL 43 35 0 23 Aug 2024
Harmonizing Visual Text Comprehension and Generation Zhen Zhao Jingqun Tang Binghong Wu Chunhui Lin Shubo Wei Hao Liu Xin Tan Zhizhong Zhang Can Huang Yuan Xie VLM 26 21 0 23 Jul 2024
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models Haodong Duan Junming Yang Junming Yang Xinyu Fang Lin Chen ... Yuhang Zang Pan Zhang Jiaqi Wang Dahua Lin Kai Chen LM&MA VLM 32 111 0 16 Jul 2024
A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding Jinghui Lu Haiyang Yu Yanjie Wang Yongjie Ye Jingqun Tang ... Qi Liu Hao Feng Han Wang Hao Liu Can Huang 35 17 0 02 Jul 2024
DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming Jiaxin Zhang Wentao Yang Songxuan Lai Zecheng Xie Lianwen Jin 29 15 0 27 Jun 2024
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark David Romero Chenyang Lyu Haryo Akbarianto Wibowo Teresa Lynn Injy Hamed ... Oana Ignat Joan Nwatu Rada Mihalcea Thamar Solorio Alham Fikri Aji 26 23 0 10 Jun 2024
TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy Weichao Zhao Hao Feng Qi Liu Jingqun Tang Shubo Wei ... Lei Liao Yongjie Ye Hao Liu Houqiang Li Can Huang LMTD 23 17 0 03 Jun 2024
TextSquare: Scaling up Text-Centric Visual Instruction Tuning Jingqun Tang Chunhui Lin Zhen Zhao Shubo Wei Binghong Wu ... Yuliang Liu Hao Liu Yuan Xie Xiang Bai Can Huang LRM VLM MLLM 42 26 0 19 Apr 2024
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen Jiannan Wu Wenhai Wang Weijie Su Guo Chen ... Bin Li Ping Luo Tong Lu Yu Qiao Jifeng Dai VLM MLLM 135 895 0 21 Dec 2023
MUST-VQA: MUltilingual Scene-text VQA Emanuele Vivoli Ali Furkan Biten Andrés Mafla Dimosthenis Karatzas Lluís Gómez 26 6 0 14 Sep 2022
Visually Grounded Reasoning across Languages and Cultures Fangyu Liu Emanuele Bugliarello E. Ponti Siva Reddy Nigel Collier Desmond Elliott VLM LRM 87 167 0 28 Sep 2021