Multimodal Language Models

MLLM

Focuses on the development and evaluation of large pretrained models or foundational models (such as large language models) that process and integrate multiple forms of data (e.g., text, audio, video) to perform tasks that require a holistic understanding of diverse inputs.

Neighbor communities

51015

Featured Papers

0 / 0 papers shown

All papers

50 / 1,421 papers shown

KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing Siyu Jiang Feiyang Chen Xiaojin Zhang Kun He MLLM VLM 5 0 0 04 Feb 2026
Interfaze: The Future of AI is built on Task-Specific Small Models Harsha Vardhan Khurdula Vineet Agarwal Yoeven D Khemlani MLLM 20 0 0 04 Feb 2026
EventFlash: Towards Efficient MLLMs for Event-Based Vision Shaoyu Liu Jianing Li Guanghui Zhao Yunjian Zhang Wen Jiang Ming Li Xiangyang Ji MLLM VLM 14 0 0 03 Feb 2026
MACD: Model-Aware Contrastive Decoding via Counterfactual Data Qixin Xiao Kun Zhou MLLM VGen 5 0 0 02 Feb 2026
IRIS: Implicit Reward-Guided Internal Sifting for Mitigating Multimodal Hallucination Yuanshuai Li Yuping Yan Jirui Han Fei Ming Lingjuan Lv Yaochu Jin MLLM OffRL VLM 29 0 0 02 Feb 2026
Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance Xinrong Chen Xu Chu Yingmin Qiu Hengyuan Zhang Jing Xiong ... Shuai Liu Shaokang Yang Cheng Yang Hayden Kwok-Hay So Ngai Wong MLLM VLM 6 0 0 01 Feb 2026
Learning Modal-Mixed Chain-of-Thought Reasoning with Latent Embeddings Yifei Shao Kun Zhou Ziming Xu Mohammad Atif Quamar Shibo Hao Zhen Wang Zhiting Hu Biwei Huang MLLM LRM 15 0 0 31 Jan 2026
Learning to Decode Against Compositional Hallucination in Video Multimodal Large Language Models Wenbin Xing Quanxing Zha Lizheng Zu Mengran Li Ming Li Junchi Yan MLLM 12 0 0 31 Jan 2026
Qualitative Evaluation of LLM-Designed GUI Bartosz Sawicki Tomasz Les Dariusz Parzych Aleksandra Wycisk-Ficek Pawel Trebacz Pawel Zawadzki MLLM ELM 15 0 0 30 Jan 2026
Mitigating Hallucinations in Video Large Language Models via Spatiotemporal-Semantic Contrastive Decoding Yuansheng Gao Jinman Zhao Tong Zhang Xingguo Xu Han Bao Zonghui Wang Wenzhi Chen MLLM 19 0 0 30 Jan 2026
SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding Ahmed Y. Radwan Christos Emmanouilidis Hina Tabassum Deval Pandya Shaina Raza MLLM VLM 20 0 0 29 Jan 2026
MIDI-LLaMA: An Instruction-Following Multimodal LLM for Symbolic Music Understanding Meng Yang Jon McCormack Maria Teresa Llano Wanchao Su Chao Lei MLLM 32 0 0 29 Jan 2026
Innovator-VL: A Multimodal Large Language Model for Scientific Discovery Zichen Wen Boxue Yang Shuang Chen Yaojie Zhang Yuhang Han ... Kun Chen Yanfeng Wang Weinan E Linfeng Zhang Linfeng Zhang MLLM VLM LRM 39 0 0 27 Jan 2026
LEMON: How Well Do MLLMs Perform Temporal Multimodal Understanding on Instructional Videos? Zhuang Yu Lei Shen Jing Zhao Shiliang Sun MLLM 40 0 0 27 Jan 2026
Towards Pixel-Level VLM Perception via Simple Points Prediction Tianhui Song Haoyu Lu Hao Yang Lin Sui Haoning Wu ... Zhiqi Huang Yiping Bao Y.Charles Xinyu Zhou Limin Wang MLLM 3DV VLM 50 0 0 27 Jan 2026
Native LLM and MLLM Inference at Scale on Apple Silicon Wayner Barrios MLLM 56 0 0 27 Jan 2026
Physical Prompt Injection Attacks on Large Vision-Language Models Chen Ling Kai Hu Hangcheng Liu Xingshuo Han Tianwei Zhang Changhai Ou MLLM AAML 43 0 0 24 Jan 2026
Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding Xiaojiang Peng Jingyi Chen Zebang Cheng Bao Peng Fengyi Wu ... Yuxiang Lin Jun-Yan He Kai Wang Zheng Lian Zhi-Qi Cheng MLLM 50 0 0 23 Jan 2026
Beyond Visual Safety: Jailbreaking Multimodal Large Language Models for Harmful Image Generation via Semantic-Agnostic Inputs Mingyu Yu Lana Liu Zhehao Zhao Wei Wang Sujuan Qin MLLM 35 0 0 22 Jan 2026
LiViBench: An Omnimodal Benchmark for Interactive Livestream Video Understanding Xiaodong Wang Langling Huang Zhirong Wu Xu Zhao Teng Xu Xuhong Xia Peixi Peng MLLM VLM 48 0 0 21 Jan 2026
Vision Also You Need: Navigating Out-of-Distribution Detection with Multimodal Large Language Model Haoran Xu Yanlin Liu Zizhao Tong Jiaze Li Kexue Fu ... Longxiang Gao Shuaiguang Li Xingyu Li Yanran Xu Changwei Wang MLLM OODD VLM 40 0 0 20 Jan 2026
LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR Said Taghadouini Adrien Cavaillès Baptiste Aubertin MLLM VLM 36 0 0 20 Jan 2026
A Training-Free Guess What Vision Language Model from Snippets to Open-Vocabulary Object Detection Guiying Zhu Bowen Yang Yin Zhuang Tong Zhang Guanqun Wang Zhihao Che He Chen Lianlin Li MLLM ObjD VLM 105 0 0 17 Jan 2026
A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 Xingjun Ma Yixu Wang Hengyuan Xu Yutao Wu Yifan Ding ... Wei Cheng Jingjing Chen Zuxuan Wu Bo Li Yu-Gang Jiang MLLM ELM 79 0 0 15 Jan 2026
DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset Hengyu Shen Tiancheng Gu Bin Qin Lan Wu Yuling Wu ... Nan Wu Xiang An Weidong Cai Ziyong Feng Kaicheng Yang MLLM CLIP VLM 58 0 0 15 Jan 2026
Optimizing Multimodal LLMs for Egocentric Video Understanding: A Solution for the HD-EPIC VQA Challenge Sicheng Yang Yukai Huang Shitong Sun Weitong Cai Jiankang Deng Jifei Song Zhensong Zhang MLLM 55 0 0 15 Jan 2026
From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion Cheng Chen Yuyu Guo Pengpeng Zeng Jingkuan Song Peng Di Hang Yu Lianli Gao MLLM 46 0 0 15 Jan 2026
Beyond Single Prompts: Synergistic Fusion and Arrangement for VICL Wenwen Liao Jianbo Yu Yuansong Wang Shifu Yan Xiaofeng Yang MLLM VLM 67 0 0 15 Jan 2026
UM-Text: A Unified Multimodal Model for Image Understanding and Visual Text Editing Lichen Ma Xiaolong Fu Gaojing Zhou Zipeng Guo Ting Zhu Yichun Liu Yu Shi Jason Li Junshi Huang MLLM 130 0 0 13 Jan 2026
Tone Matters: The Impact of Linguistic Tone on Hallucination in VLMs Weihao Hong Zhiyuan Jiang Bingyu Shen Xinlei Guan Yangyi Feng Meng Xu Boyang Li MLLM VLM 102 0 0 10 Jan 2026
Can a Unimodal Language Agent Provide Preferences to Tune a Multimodal Vision-Language Model? Sazia Tabasum Mim Jack Morris Manish Dhakal Yanming Xiu Maria Gorlatova Yi Ding MLLM 65 0 0 10 Jan 2026
Context-Aware Decoding for Faithful Vision-Language Generation Mehrdad Fazli Bowen Wei Ziwei Zhu MLLM 133 0 0 09 Jan 2026
Mechanisms of Prompt-Induced Hallucination in Vision-Language Models William Rudman Michal Golovanevsky Dana Arad Yonatan Belinkov Ritambhara Singh Carsten Eickhoff Kyle Mahowald MLLM VLM 121 0 0 08 Jan 2026
Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering Shuliang Liu Songbo Yang Dong Fang Sihang Jia Yuqi Tang Lingfeng Su Ruoshui Peng Yibo Yan Xin Zou Xuming Hu MLLM LLMSV LRM 132 0 0 08 Jan 2026
SDCD: Structure-Disrupted Contrastive Decoding for Mitigating Hallucinations in Large Vision-Language Models Yuxuan Xia Siheng Wang Peng Li MLLM 202 0 0 07 Jan 2026
HyperCLOVA X 8B Omni NAVER Cloud HyperCLOVA X Team MLLM VLM 181 0 0 05 Jan 2026
HyperCLOVA X 32B Think NAVER Cloud HyperCLOVA X Team MLLM ReLM LRM VLM 234 0 0 03 Jan 2026
CRoPS: A Training-Free Hallucination Mitigation Framework for Vision-Language Models Neeraj Anand Samyak Jha Udbhav Bamba Rahul Rahaman MLLM VLM 214 0 0 02 Jan 2026
Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation Zhe Huang Hao Wen Aiming Hao Bingze Song Meiqi Wu Jiahong Wu Xiangxiang Chu Sheng Lu Haoqian Wang MLLM VGen 328 0 0 30 Dec 2025
ThinkGen: Generalized Thinking for Visual Generation Siyu Jiao Yiheng Lin Yujie Zhong Qi She Wei Zhou ... Fei Yu Yingchen Yu Yunqing Zhao Yao Zhao Yunchao Wei MLLM DiffM LRM 140 0 0 29 Dec 2025
MiMo-Audio: Audio Language Models are Few-Shot Learners Xiaomi LLM-Core Team Dong Zhang Gang Wang Jinlong Xue Kai Fang ... Zhenru Lin Zhichao Song Zhipeng Xu Zhixian Zheng Zihan Jiang MLLM AuLLM 198 0 0 29 Dec 2025
Same or Not? Enhancing Visual Perception in Vision-Language Models Damiano Marsili Aditya Mehta Ryan Y. Lin Georgia Gkioxari MLLM ObjD VLM CoGe 221 0 0 29 Dec 2025
Instruction-Following Evaluation of Large Vision-Language Models Daiki Shiono Shumpei Miyawaki Ryota Tanaka Jun Suzuki MLLM 107 0 0 29 Dec 2025
CoFi-Dec: Hallucination-Resistant Decoding via Coarse-to-Fine Generative Feedback in Large Vision-Language Models Zongsheng Cao Yangfan He Anran Liu Jun Xie Feng Chen Zepeng Wang MLLM 255 0 0 29 Dec 2025
iSHIFT: Lightweight Slow-Fast GUI Agent with Adaptive Perception Sarthak Mehrotra Sairam V C Rebbapragada Mani Hemanth Reddy Bonthu Vineeth N Balasubramanian LLMAG MLLM 136 0 0 26 Dec 2025
Training-free Conditional Image Embedding Framework Leveraging Large Vision Language Models Masayuki Kawarada Kosuke Yamada Antonio Tejero-de-Pablos Naoto Inoue MLLM VLM 223 0 0 26 Dec 2025
Open-Source Multimodal Moxin Models with Moxin-VLM and Moxin-VLA Pu Zhao Arash Akbari Xuan Shen Zhenglun Kong Yixin Shen ... Wei Jiang Wei Wang Yue Chen Yong He Yanzhi Wang MLLM 119 0 0 22 Dec 2025
Watch Closely: Mitigating Object Hallucinations in Large Vision-Language Models with Disentangled Decoding Ruiqi Ma Yu Yan Chunhong Zhang Minghao Yin XinChao Liu Zhihong Jin Zheng Hu MLLM VLM 107 0 0 22 Dec 2025
PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models A. B. M. Ashikur Rahman Saeed Anwar Muhammad Usman Irfan Ahmad Ajmal Mian MLLM 151 0 0 22 Dec 2025
dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models Yi Xin Siqi Luo Qi Qin Haoxing Chen Kaiwen Zhu ... Bin Fu Junjun He Yihao Liu Yuewen Cao Xiaohong Liu MLLM 150 0 0 22 Dec 2025

Loading #Papers per Month with "MLLM"

Past speakers

Name (-)

Top Contributors

Name (-)

Top Organizations at ResearchTrend.AI

Name (-)

Social Events

Date	Location	Event
No social events available