Title
Aligning Multimodal LLM with Human Preference: A Survey Tao Yu Y. Zhang Chaoyou Fu Junkang Wu Jinda Lu ... Qingsong Wen Z. Zhang Yan Huang Liang Wang T. Tan 123 2 0 18 Mar 2025
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration Mingyang Song Xiaoye Qu Jiawei Zhou Yu-Xi Cheng VLM 50 1 0 17 Mar 2025
R2-T2: Re-Routing in Test-Time for Multimodal Mixture-of-Experts Zhongyang Li Ziyue Li Tianyi Zhou MoE 46 0 0 27 Feb 2025
OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones? Z. Chen Tingzhu Chen Wenjun Zhang Guangtao Zhai 82 3 0 02 Dec 2024
An Intelligent Agentic System for Complex Image Restoration Problems Kaiwen Zhu Jinjin Gu Zhiyuan You Yu Qiao Chao Dong 33 6 0 23 Oct 2024
Secure Video Quality Assessment Resisting Adversarial Attacks Ao Zhang Yu Ran Weixuan Tang Yuan-Gen Wang Qingxiao Guan Chunsheng Yang AAML 29 0 0 09 Oct 2024
Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs Zicheng Zhang Ziheng Jia H. Wu Chunyi Li Zijian Chen ... Wei Sun Xiaohong Liu Xiongkuo Min Weisi Lin Guangtao Zhai 21 7 0 30 Sep 2024
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models Kaichen Zhang Bo Li Peiyuan Zhang Fanyi Pu Joshua Adrian Cahyono ... Shuai Liu Yuanhan Zhang Jingkang Yang Chunyuan Li Ziwei Liu 91 74 0 17 Jul 2024
A-Bench: Are LMMs Masters at Evaluating AI-generated Images? Zicheng Zhang H. Wu Chunyi Li Yingjie Zhou Wei Sun Xiongkuo Min Zijian Chen Xiaohong Liu Weisi Lin Guangtao Zhai EGVM 59 16 0 05 Jun 2024
Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare Hanwei Zhu Haoning Wu Yixuan Li Zicheng Zhang Baoliang Chen Lingyu Zhu Yuming Fang Guangtao Zhai Weisi Lin Shiqi Wang 38 18 0 29 May 2024
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models Byung-Kwan Lee Chae Won Kim Beomchan Park Yonghyun Ro MLLM LRM 25 17 0 24 May 2024
G-Refine: A General Quality Refiner for Text-to-Image Generation Chunyi Li Haoning Wu Hongkun Hao Zicheng Zhang Tengchaun Kou Chaofeng Chen Lei Bai Xiaohong Liu Weisi Lin Guangtao Zhai 25 4 0 29 Apr 2024
Constructing Multilingual Visual-Text Datasets Revealing Visual Multilingual Ability of Vision Language Models Jesse Atuhurra Iqra Ali Tatsuya Hiraoka Hidetaka Kamigaito Tomoya Iwakura Taro Watanabe 38 1 0 29 Mar 2024
XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution Yunpeng Qu Kun Yuan Kai Zhao Qizhi Xie Jinhua Hao Ming-hui Sun Chao Zhou 27 16 0 08 Mar 2024
CoLLaVO: Crayon Large Language and Vision mOdel Byung-Kwan Lee Beomchan Park Chae Won Kim Yonghyun Ro VLM MLLM 24 16 0 17 Feb 2024
Towards A Better Metric for Text-to-Video Generation Jay Zhangjie Wu Guian Fang Haoning Wu Xintao Wang Yixiao Ge ... Rui Zhao Weisi Lin Wynne Hsu Ying Shan Mike Zheng Shou VGen 29 34 0 15 Jan 2024
Q-Boost: On Visual Quality Assessment Ability of Low-level Multi-Modality Foundation Models Zicheng Zhang Haoning Wu Zhongpeng Ji Chunyi Li Erli Zhang ... Xiongkuo Min Fengyu Sun Shangling Jui Weisi Lin Guangtao Zhai 30 16 0 23 Dec 2023
Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels? Xiujun Li Yujie Lu Zhe Gan Jianfeng Gao William Yang Wang Yejin Choi VLM MLLM 28 1 0 29 Nov 2023
Image Super-Resolution with Text Prompt Diffusion Zheng Chen Yulun Zhang Jinjin Gu Xin Yuan Linghe Kong Guihai Chen Xiaokang Yang DiffM 26 19 0 24 Nov 2023
TOPIQ: A Top-down Approach from Semantics to Distortions for Image Quality Assessment Chaofeng Chen Jiadi Mo Jingwen Hou Haoning Wu Liang Liao Wenxiu Sun Qiong Yan Weisi Lin 34 112 0 06 Aug 2023
TransRef: Multi-Scale Reference Embedding Transformer for Reference-Guided Image Inpainting Taorong Liu Liang Liao Delin Chen Jing Xiao Zheng Wang Chia-Wen Lin Shiníchi Satoh ViT DiffM 21 6 0 20 Jun 2023
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 206 899 0 27 Apr 2023
Neighbourhood Representative Sampling for Efficient End-to-end Video Quality Assessment Haoning Wu Chaofeng Chen Liang Liao Jingwen Hou Wenxiu Sun Qiong Yan Jinwei Gu Weisi Lin 51 44 0 11 Oct 2022
FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling Haoning Wu Chaofeng Chen Jingwen Hou Liang Liao Annan Wang Wenxiu Sun Qiong Yan Weisi Lin 68 168 0 06 Jul 2022