Title
Struct2D: A Perception-Guided Framework for Spatial Reasoning in MLLMs Fangrui Zhu Hanhui Wang Yiming Xie Jing Gu Tianye Ding Jianwei Yang Huaizu Jiang 3DV LRM 412 0 0 04 Jun 2025
Generating 6DoF Object Manipulation Trajectories from Action Description in Egocentric VisionComputer Vision and Pattern Recognition (CVPR), 2025 Tomoya Yoshida Shuhei Kurita Taichi Nishimura Shinsuke Mori 264 1 0 04 Jun 2025
METok: Multi-Stage Event-based Token Compression for Efficient Long Video Understanding Mengyue Wang Shuo Chen Kristian Kersting Volker Tresp Yunpu Ma VLM 199 1 0 03 Jun 2025
HaploOmni: Unified Single Transformer for Multimodal Video Understanding and Generation Yicheng Xiao Lin Song Rui Yang Cheng Cheng Zunnan Xu Zhaoyang Zhang Yixiao Ge Xiu Li Mingyu Ding 212 5 0 03 Jun 2025
Affordance Benchmark for MLLMs Junying Wang Wenzhe Li Yalun Wu Yingji Liang Yijin Guo Chunyi Li Haodong Duan Zicheng Zhang Guangtao Zhai 216 4 0 01 Jun 2025
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning EvaluationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Junyu Luo Zhizhuo Kou Liming Yang Xiao Luo Jinsheng Huang ... Jiaming Ji Xuanzhe Liu Sirui Han Ming Zhang Wenhan Luo 150 14 0 30 May 2025
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces Gen Luo Ganlin Yang Ziyang Gong Guanzhou Chen Haonan Duan ... Wenhai Wang Jifeng Dai Yu Qiao Rongrong Ji X. Zhu LM&Ro 175 18 0 30 May 2025
Advancing Compositional Awareness in CLIP with Efficient Fine-Tuning Amit Peleg Naman D. Singh Matthias Hein CoGe VLM 312 1 0 30 May 2025
Time Blindness: Why Video-Language Models Can't See What Humans Can? Ujjwal Upadhyay Mukul Ranjan Zhiqiang Shen Mohamed Elhoseiny VLM 197 3 0 30 May 2025
Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors Duo Zheng Shijia Huang Yanyang Li Liwei Wang 310 23 0 30 May 2025
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence Diankun Wu Fangfu Liu Yi-Hsin Hung Yueqi Duan LRM 256 59 0 29 May 2025
EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis Shengyuan Liu Boyun Zheng Wenting Chen Zhihao Peng Zhenfei Yin Jing Shao Jiancong Hu Yixuan Yuan ELM 310 8 0 29 May 2025
NegVQA: Can Vision Language Models Understand Negation?Annual Meeting of the Association for Computational Linguistics (ACL), 2025 Yuhui Zhang Yuchang Su Yiming Liu Serena Yeung-Levy MLLM CoGe 168 3 0 28 May 2025
HoliTom: Holistic Token Merging for Fast Video Large Language Models Kele Shao Keda Tao Can Qin Haoxuan You Yang Sui Huan Wang VLM 557 15 0 27 May 2025
QuARI: Query Adaptive Retrieval Improvement Eric Xing Abby Stylianou Robert Pless Nathan Jacobs VLM 178 0 0 27 May 2025
Diagnosing and Mitigating Modality Interference in Multimodal Large Language Models Rui Cai Bangzheng Li Xiaofei Wen Muhao Chen Zhe Zhao 160 0 0 26 May 2025
TUNA: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic VideosAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Fanheng Kong Jingyuan Zhang Hongzhi Zhang Shi Feng Daling Wang Linhao Yu Xingguang Ji Yu Tian Qi Wang Fuzheng Zhang 255 2 0 26 May 2025
USB: A Comprehensive and Unified Safety Evaluation Benchmark for Multimodal Large Language Models Baolin Zheng Guanlin Chen Hongqiong Zhong Qingyang Teng Yingshui Tan ... Jincheng Wei Yuchi Xu Xiaoyong Zhu Bo Zheng Kaifu Zhang ELM 140 4 0 26 May 2025
Sparse-to-Dense: A Free Lunch for Lossless Acceleration of Video Understanding in LLMsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Xuan Zhang Cunxiao Du Sicheng Yu Jiawei Wu Fengzhuo Zhang Wei Gao Qian Liu 197 0 0 25 May 2025
Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Hongji Yang Yucheng Zhou Wencheng Han Jianbing Shen 183 6 0 22 May 2025
Streamline Without Sacrifice - Squeeze out Computation Redundancy in LMM Penghao Wu Lewei Lu Ziwei Liu 259 0 0 21 May 2025
Domain Adaptation of VLM for Soccer Video Understanding Tiancheng Jiang Henry Wang Md Sirajus Salekin Parmida Atighehchian Shinan Zhang VLM 338 3 0 20 May 2025
FIGhost: Fluorescent Ink-based Stealthy and Flexible Backdoor Attacks on Physical Traffic Sign Recognition Shuai Yuan Guowen Xu Hongwei Li Rui Zhang Xinyuan Qian Wenbo Jiang Hangcheng Cao Qingchuan Zhao AAML 294 1 0 17 May 2025
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning Bonan li Zicheng Zhang Songhua Liu Weihao Yu Xinchao Wang VLM 322 2 0 17 May 2025
Physics-informed Temporal Alignment for Auto-regressive PDE Foundation Models Congcong Zhu Xiaoyan Xu Jiayue Han Jingrun Chen OOD AI4CE 400 0 0 16 May 2025
Dynam3D: Dynamic Layered 3D Tokens Empower VLM for Vision-and-Language Navigation Zihan Wang Seungjun Lee Gim Hee Lee VGen 347 4 0 16 May 2025
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation Yifu Yuan Haiqin Cui Yibin Chen Zibin Dong Fei Ni Longxin Kou Jinyi Liu Pengyi Li Yan Zheng Jianye Hao 434 14 0 13 May 2025
ViDRiP-LLaVA: A Dataset and Benchmark for Diagnostic Reasoning from Pathology Videos T. Vuong J. T. Kwak VGen 331 0 0 07 May 2025
RTV-Bench: Benchmarking MLLM Continuous Perception, Understanding and Reasoning through Real-Time Video Shuhang Xun Sicheng Tao Jiajun Li Yibo Shi Zhixin Lin ... Shikang Wang Wenshu Fan Hao Zhang Ying Ma Xuming Hu VLM LRM 363 4 0 04 May 2025
TimeChat-Online: 80% Visual Tokens are Naturally Redundant in Streaming Videos Linli Yao You Li Y. X. Wei Lei Li Shuhuai Ren ... Sida Li Dianbo Sui Qi Liu Yanzhe Zhang Xu Sun 260 13 0 24 Apr 2025
Visual and Textual Prompts in VLLMs for Enhancing Emotion Recognition Zhifeng Wang Qixuan Zhang Peter Zhang Wenjia Niu Kaihao Zhang Ramesh Sankaranarayana Sabrina Caldwell Tom Gedeon 417 0 0 24 Apr 2025
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs Tiancheng Gu Kaicheng Yang Ziyong Feng Xingjun Wang Yanzhao Zhang Dingkun Long Yingda Chen Weidong Cai Jiankang Deng VLM 869 34 0 24 Apr 2025
$VideoVista-CulturalLingo: 360$^\circ$ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension$ VideoVista-CulturalLingo: 360 $^\circ$ Horizons-Bridging Cultures, Languages, and Domains in Video ComprehensionAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Xinyu Chen Yunxin Li Haoyuan Shi Baotian Hu Tong Lu Yaowei Wang Hao Fei ELM 256 2 0 23 Apr 2025
FaceInsight: A Multimodal Large Language Model for Face Perception Jingzhi Li Changjiang Luo Ruoyu Chen Hua Zhang Wenqi Ren Jianhou Gan Xiaochun Cao CVBM LRM 372 2 0 22 Apr 2025
Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark Enxin Song Wenhao Chai Weili Xu Jianwen Xie Yuxuan Liu Gaoang Wang 357 20 0 20 Apr 2025
Towards Explainable Fake Image Detection with Multi-Modal Large Language Models Yikun Ji Y. Hong Jiahui Zhan H. Chen Jun Lan Huijia Zhu Weiqiang Wang Guang Dai Jianfu Zhang MLLM LRM 448 4 0 19 Apr 2025
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model Yang Shi Jiaheng Liu Yushuo Guan Zhikai Wu Yujiao Shi ... Bohan Zeng Wei Zhang Fuzheng Zhang Wenjing Yang Di Zhang VGen VLM 355 11 0 14 Apr 2025
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models Jinguo Zhu Weiyun Wang Zhe Chen Ziwei Liu Shenglong Ye ... Dahua Lin Yu Qiao Jifeng Dai Wenhai Wang Wei Wang MLLM VLM 529 756 1 14 Apr 2025
Aligning Anime Video Generation with Human Feedback Bingwen Zhu Yudong Jiang Baohan Xu Siqian Yang Mingyu Yin Yidi Wu Huyang Sun Zuxuan Wu EGVM VGen 325 4 0 14 Apr 2025
AgMMU: A Comprehensive Agricultural Multimodal Understanding Benchmark Aruna Gauba Irene Pi Yunze Man Ziqi Pang Vikram S. Adve Yu-Xiong Wang 829 1 0 14 Apr 2025
How Can Objects Help Video-Language Understanding? Zitian Tang Shijie Wang Junho Cho Jaewook Yoo Chen Sun 306 1 0 10 Apr 2025
Are Vision-Language Models Ready for Dietary Assessment? Exploring the Next Frontier in AI-Powered Food Image Recognition Sergio Romero-Tapiador Ruben Tolosana Blanca Lacruz-Pleguezuelos L. Marcos-Zambrano Guadalupe X.Bazán Isabel Espinosa-Salinas Julian Fierrez Javier-Ortega Garcia Enrique Carrillo-de Santa Pau Aythami Morales CoGe 161 5 0 09 Apr 2025
PaMi-VDPO: Mitigating Video Hallucinations by Prompt-Aware Multi-Instance Video Preference Learning Xinpeng Ding Jianchao Tan Jinahua Han Lanqing Hong Hang Xu Xuelong Li MLLM VLM 1.1K 3 0 08 Apr 2025
LEO-MINI: An Efficient Multimodal Large Language Model using Conditional Token Reduction and Mixture of Multi-Modal Experts Yimu Wang Mozhgan Nasr Azadani Sean Sedwards Krzysztof Czarnecki MoE MLLM 247 2 0 07 Apr 2025
Multifaceted Evaluation of Audio-Visual Capability for MLLMs: Effectiveness, Efficiency, Generalizability and Robustness Yusheng Zhao Junyu Luo Zhiyuan Ning Weizhi Zhang Zhiping Xiao Wei Ju Philip S. Yu Ming Zhang AuLLM 285 0 0 03 Apr 2025
Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation Chuanqi Cheng Jian Guan Wei Wu Rui Yan VLM 589 16 0 03 Apr 2025
Efficient LLaMA-3.2-Vision by Trimming Cross-attended Visual Features Jewon Lee Ki-Ung Song Seungmin Yang Donguk Lim Jaeyeon Kim Wooksu Shin Bo-Kyeong Kim Yong Jae Lee Tae-Ho Kim VLM 197 6 0 01 Apr 2025
Video-R1: Reinforcing Video Reasoning in MLLMs Kaituo Feng Kaixiong Gong Yangqiu Song Zonghao Guo Yibing Wang Tianshuo Peng Jian Wu Xiaoying Zhang Benyou Wang Xiangyu Yue AI4TS SyDa LRM 517 219 0 27 Mar 2025
InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression Dongchen Lu Yuyao Sun Zilu Zhang Leping Huang Jianliang Zeng Mao Shu Huo Cao 384 7 0 27 Mar 2025
Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping Weili Zeng Ziyuan Huang Kaixiang Ji Manwen Liao VLM 582 4 0 26 Mar 2025