Imp: Highly Capable Large Multimodal Models for Mobile Devices

v1v2 (latest)

Imp: Highly Capable Large Multimodal Models for Mobile Devices

20 May 2024

Xuecheng Ouyang

ArXiv (abs)PDF HTML HuggingFace (30 upvotes)

Papers citing "Imp: Highly Capable Large Multimodal Models for Mobile Devices"

17 / 17 papers shown

Title
Input Domain Aware MoE: Decoupling Routing Decisions from Task Optimization in Mixture of Experts Yongxiang Hua H. Cao Zhou Tao Bocheng Li Zihao Wu Chaohu Liu Linli Xu MoE 136 0 0 18 Oct 2025
REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting Changyue Shi Minghao Chen Yiping Mao Chuxiao Yang Xinyuan Hu Jiajun Ding Zhou Yu LRM 68 2 0 18 Oct 2025
CompoDistill: Attention Distillation for Compositional Reasoning in Multimodal LLMs Jiwan Kim Kibum Kim Sangwoo Seo Chanyoung Park VLM 112 0 0 14 Oct 2025
When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs A. S. Penamakuri Navlika Singh Piyush Arora Anand Mishra VLM 95 1 0 20 Sep 2025
Task-Oriented Semantic Communication in Large Multimodal Models-based Vehicle NetworksIEEE Transactions on Mobile Computing (IEEE TMC), 2025 Baoxia Du H. Du Dusit Niyato Ruidong Li 265 3 0 05 May 2025
Growing a Twig to Accelerate Large Vision-Language Models Zhenwei Shao Mingyang Wang Zhou Yu Wenwen Pan Yan Yang Tao Wei Hao Zhang Ning Mao Wei Chen Jun Yu VLM 251 6 0 18 Mar 2025
TB-Bench: Training and Testing Multi-Modal AI for Understanding Spatio-Temporal Traffic Behaviors from Dashcam Images/Videos Korawat Charoenpitaks Van-Quang Nguyen Masanori Suganuma Kentaro Arai Seiji Totsuka Hiroshi Ino Takayuki Okatani VLM 80 2 0 10 Jan 2025
FlashSloth: Lightning Multimodal Large Language Models via Embedded Visual CompressionComputer Vision and Pattern Recognition (CVPR), 2024 Bo Tong Bokai Lai Weihao Ye Gen Luo Chunjiang Ge Ke Li Xiaoshuai Sun Rongrong Ji VLM MLLM 173 4 0 05 Dec 2024
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models Y. Cai Jiangning Zhang Haoyang He Xinwei He Ao Tong Zhenye Gan Chengjie Wang Zhucun Xue Yong-Jin Liu X. Bai VLM 334 17 0 21 Oct 2024
Phantom of Latent for Large Language and Vision Models Byung-Kwan Lee Sangyun Chung Chae Won Kim Beomchan Park Yong Man Ro VLM LRM 250 11 0 23 Sep 2024
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge DistillationInternational Conference on Learning Representations (ICLR), 2024 Fangxun Shu Yue Liao Le Zhuo Chenning Xu Guanghao Zhang ... Bolin Li Zhelun Yu Si Liu Hongsheng Li Hao Jiang VLM MoE 166 30 0 28 Aug 2024
Towards Holistic Disease Risk Prediction using Small Language ModelsInternational Conference on Machine Learning and Applications (ICMLA), 2024 Liv Bjorkdahl Oskar Pauli Johan Ostman Chiara Ceccobello Sara Lundell Magnus Kjellberg LM&MA 154 0 0 13 Aug 2024
Mini-Monkey: Multi-Scale Adaptive Cropping for Multimodal Large Language ModelsInternational Conference on Learning Representations (ICLR), 2024 Mingxin Huang Yuliang Liu Dingkang Liang Lianwen Jin Xiang Bai 213 2 0 04 Aug 2024
TroL: Traversal of Layers for Large Language and Vision Models Byung-Kwan Lee Sangyun Chung Chae Won Kim Beomchan Park Yong Man Ro 288 11 0 18 Jun 2024
Efficient Multimodal Learning from Data-centric Perspective Muyang He Yexin Liu Boya Wu Jianhao Yuan Yueze Wang Tiejun Huang Bo Zhao MLLM 216 118 0 18 Feb 2024
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models Chris Liu Renrui Zhang Longtian Qiu Siyuan Huang Weifeng Lin ... Hao Shao Pan Lu Jiaming Song Yu Qiao Shiyang Feng MLLM 437 135 0 08 Feb 2024
Baichuan 2: Open Large-scale Language Models Ai Ming Yang Bin Xiao Bingning Wang Borong Zhang Ce Bian ... Youxin Jiang Yuchen Gao Yupeng Zhang Guosheng Dong Zhiying Wu ELM LRM 711 903 0 19 Sep 2023