Title
Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning Yuyao Ge Shenghua Liu Yiwei Wang Shansong Liu Baolong Bi Xuanshan Zhou Jiayu Yao Jiafeng Guo Xueqi Cheng 176 2 0 08 Sep 2025
What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities Wendong Bu Yang Wu Qifan Yu Minghe Gao Bingchen Miao ... Mengze Li Wei Ji Juncheng Billy Li Siliang Tang Yueting Zhuang ELM 137 1 0 10 Jun 2025
FocusDiff: Advancing Fine-Grained Text-Image Alignment for Autoregressive Visual Generation through RL Kaihang Pan Wendong Bu Y. Wu Yang Wu Kai Shen Yunfei Li Hang Zhao Juncheng Billy Li Siliang Tang Yueting Zhuang 194 8 0 05 Jun 2025
ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems Chenxi Wang Jizhan Fang Xiang Chen Bozhong Tian Ziwen Xu Zeyang Zhang Ningyu Zhang KELM 299 0 0 26 Mar 2025
Boosting Virtual Agent Learning and Reasoning: A Step-Wise, Multi-Dimensional, and Generalist Reward Model with Benchmark Bingchen Miao Y. Wu Minghe Gao Qifan Yu Wendong Bu Wenqiao Zhang Yunfei Li Siliang Tang Tat-Seng Chua Juncheng Billy Li LLMAG LRM 316 3 0 24 Mar 2025
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, EditingNeural Information Processing Systems (NeurIPS), 2024 Hao Fei Shengqiong Wu Hao Zhang Tat-Seng Chua Shuicheng Yan 407 70 0 31 Dec 2024
AnyEdit: Mastering Unified High-Quality Image Editing for Any IdeaComputer Vision and Pattern Recognition (CVPR), 2024 Qifan Yu Wei Chow Zhongqi Yue Kaihang Pan Yang Wu Xiaoyang Wan Juncheng Billy Li Siliang Tang Hao Zhang Yueting Zhuang DiffM 417 98 0 24 Nov 2024
Towards Semantic Equivalence of Tokenization in Multimodal LLMInternational Conference on Learning Representations (ICLR), 2024 Shengqiong Wu Hao Fei Xiangtai Li Jiayi Ji Hanwang Zhang Tat-Seng Chua Shuicheng Yan MLLM 442 55 0 07 Jun 2024