Papers citing 'Imp: Highly Capable Large Multimodal Models for Mobile Devices'

Title
Jina-VLM: Small Multilingual Vision Language Model Andreas Koukounas Georgios Mastrapas Florian Hönicke Sedigheh Eslami Guillaume Roncari Scott Martens Han Xiao MLLM 303 0 0 03 Dec 2025
REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting Changyue Shi Minghao Chen Yiping Mao Chuxiao Yang Xinyuan Hu Jiajun Ding Zhou Yu LRM 108 2 0 18 Oct 2025
Input Domain Aware MoE: Decoupling Routing Decisions from Task Optimization in Mixture of Experts Yongxiang Hua H. Cao Zhou Tao Bocheng Li Zihao Wu Chaohu Liu Linli Xu MoE 196 0 0 18 Oct 2025
CompoDistill: Attention Distillation for Compositional Reasoning in Multimodal LLMs Jiwan Kim Kibum Kim Sangwoo Seo Chanyoung Park VLM 144 1 0 14 Oct 2025
When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs A. S. Penamakuri Navlika Singh Piyush Arora Anand Mishra VLM 119 1 0 20 Sep 2025
Task-Oriented Semantic Communication in Large Multimodal Models-based Vehicle NetworksIEEE Transactions on Mobile Computing (IEEE TMC), 2025 Baoxia Du H. Du Dusit Niyato Ruidong Li 318 6 0 05 May 2025
Growing a Twig to Accelerate Large Vision-Language Models Zhenwei Shao Mingyang Wang Zhou Yu Wenwen Pan Yan Yang Tao Wei Hao Zhang Ning Mao Wei Chen Jun Yu VLM 330 6 0 18 Mar 2025
TB-Bench: Training and Testing Multi-Modal AI for Understanding Spatio-Temporal Traffic Behaviors from Dashcam Images/Videos Korawat Charoenpitaks Van-Quang Nguyen Masanori Suganuma Kentaro Arai Seiji Totsuka Hiroshi Ino Takayuki Okatani VLM 128 2 0 10 Jan 2025
FlashSloth: Lightning Multimodal Large Language Models via Embedded Visual CompressionComputer Vision and Pattern Recognition (CVPR), 2024 Bo Tong Bokai Lai Weihao Ye Gen Luo Chunjiang Ge Ke Li Xiaoshuai Sun Rongrong Ji VLM MLLM 221 4 0 05 Dec 2024
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models Y. Cai Jiangning Zhang Haoyang He Xinwei He Ao Tong Zhenye Gan Chengjie Wang Zhucun Xue Yong-Jin Liu X. Bai VLM 402 20 0 21 Oct 2024
Phantom of Latent for Large Language and Vision Models Byung-Kwan Lee Sangyun Chung Chae Won Kim Beomchan Park Yong Man Ro VLM LRM 250 12 0 23 Sep 2024
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge DistillationInternational Conference on Learning Representations (ICLR), 2024 Fangxun Shu Yue Liao Le Zhuo Chenning Xu Guanghao Zhang ... Bolin Li Zhelun Yu Si Liu Hongsheng Li Hao Jiang VLM MoE 202 31 0 28 Aug 2024
Towards Holistic Disease Risk Prediction using Small Language ModelsInternational Conference on Machine Learning and Applications (ICMLA), 2024 Liv Bjorkdahl Oskar Pauli Johan Ostman Chiara Ceccobello Sara Lundell Magnus Kjellberg LM&MA 190 1 0 13 Aug 2024
Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language ModelsInternational Conference on Learning Representations (ICLR), 2024 Mingxin Huang Yuliang Liu Dingkang Liang Lianwen Jin Xiang Bai 261 2 0 04 Aug 2024
TroL: Traversal of Layers for Large Language and Vision Models Byung-Kwan Lee Sangyun Chung Chae Won Kim Beomchan Park Yong Man Ro 316 12 0 18 Jun 2024
Efficient Multimodal Learning from Data-centric Perspective Muyang He Yexin Liu Boya Wu Jianhao Yuan Yueze Wang Tiejun Huang Bo Zhao MLLM 264 121 0 18 Feb 2024
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models Chris Liu Renrui Zhang Longtian Qiu Siyuan Huang Weifeng Lin ... Hao Shao Pan Lu Jiaming Song Yu Qiao Shiyang Feng MLLM 473 138 0 08 Feb 2024
Baichuan 2: Open Large-scale Language Models Ai Ming Yang Bin Xiao Bingning Wang Borong Zhang Ce Bian ... Youxin Jiang Yuchen Gao Yupeng Zhang Guosheng Dong Zhiying Wu ELM LRM 755 915 0 19 Sep 2023