Title
Video-LLaVA: Learning United Visual Representation by Alignment Before Projection Bin Lin Yang Ye Bin Zhu Jiaxi Cui Munan Ning Peng Jin Li-ming Yuan VLM MLLM 1.4K 1,143 0 16 Nov 2023
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning Junke Wang Lingchen Meng Zejia Weng Bo He Zuxuan Wu Yu-Gang Jiang MLLM VLM 220 132 0 13 Nov 2023
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model Jinjin Xu Liwu Xu Yuzhe Yang Xiang Li Fanyi Wang Yanchun Xie Yi-Jie Huang Yaqian Li MoE MLLM VLM 372 24 0 09 Nov 2023
OtterHD: A High-Resolution Multi-modality Model Yue Liu Peiyuan Zhang Jingkang Yang Yuanhan Zhang Fanyi Pu Ziwei Liu VLM MLLM 171 76 0 07 Nov 2023
ReForm-Eval: Evaluating Large Vision Language Models via Unified Re-Formulation of Task-Oriented BenchmarksACM Multimedia (ACM MM), 2023 Zejun Li Ye Wang Mengfei Du Qingwen Liu Binhao Wu ... Zhihao Fan Jie Fu Jingjing Chen Xuanjing Huang Zhongyu Wei 250 16 0 04 Oct 2023
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context LearningInternational Conference on Learning Representations (ICLR), 2023 Mustafa Shukor Alexandre Ramé Corentin Dancette Matthieu Cord LRM MLLM 356 26 0 01 Oct 2023
LawBench: Benchmarking Legal Knowledge of Large Language Models Zhiwei Fei Xiaoyu Shen D. Zhu Fengzhe Zhou Zhuo Han Songyang Zhang Kai-xiang Chen Zongwen Shen Jidong Ge ELM AILaw 230 81 0 28 Sep 2023
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition Pan Zhang Xiaoyi Wang Bin Wang Yuhang Cao Chao Xu ... Conghui He Xingcheng Zhang Yu Qiao Da Lin Yuan Liu MLLM 674 300 0 26 Sep 2023
TextBind: Multi-turn Interleaved Multimodal Instruction-following in the WildAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Huayang Li Siheng Li Deng Cai Longyue Wang Lemao Liu Taro Watanabe Yujiu Yang Shuming Shi MLLM 289 22 0 14 Sep 2023
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data Yanda Li Chi Zhang Gang Yu Zhibin Wang Bin-Bin Fu Guosheng Lin Chunhua Shen Ling Chen Yunchao Wei MLLM 156 35 0 20 Aug 2023
MM-Vet: Evaluating Large Multimodal Models for Integrated CapabilitiesInternational Conference on Machine Learning (ICML), 2023 Weihao Yu Zhengyuan Yang Linjie Li Jianfeng Wang Kevin Qinghong Lin Zicheng Liu Xinchao Wang Lijuan Wang MLLM 470 1,006 0 04 Aug 2023
SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension Bohao Li Rui Wang Guangzhi Wang Yuying Ge Yixiao Ge Ying Shan MLLM ELM 447 772 0 30 Jul 2023
SVIT: Scaling up Visual Instruction Tuning Bo Zhao Boya Wu Muyang He Tiejun Huang MLLM 261 156 0 09 Jul 2023
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Shilong Zhang Pei Sun Shoufa Chen Min Xiao Wenqi Shao Wenwei Zhang Yu Liu Kai-xiang Chen Ping Luo MLLM VLM 797 311 0 07 Jul 2023
A Survey on Multimodal Large Language ModelsNational Science Review (NSR), 2023 Xinglong Mao Chaoyou Fu Zhengye Zhang Ke Li Xing Sun Tong Xu Enhong Chen MLLM LRM 405 953 0 23 Jun 2023
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models Chaoyou Fu Peixian Chen Chunjiang Ge Yulei Qin Mengdan Zhang ... Xing Sun Zhenyu Qiu Rongrong Ji Caifeng Shan Ran He ELM MLLM 717 1,198 0 23 Jun 2023
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language ModelsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023 Peng Xu Wenqi Shao Kaipeng Zhang Shiyang Feng Shuo Liu Meng Lei Fanqing Meng Siyuan Huang Yu Qiao Ping Luo ELM MLLM 273 227 0 15 Jun 2023
AWQ: Activation-aware Weight Quantization for LLM Compression and AccelerationConference on Machine Learning and Systems (MLSys), 2023 Ji Lin Jiaming Tang Haotian Tang Shang Yang Wei-Ming Chen Wei-Chen Wang Guangxuan Xiao Xingyu Dang Chuang Gan Song Han EDL MQ 787 923 0 01 Jun 2023
LMEye: An Interactive Perception Network for Large Language ModelsIEEE transactions on multimedia (IEEE TMM), 2023 Yunxin Li Baotian Hu Xinyu Chen Lin Ma Yong-mei Xu Hao Fei MLLM VLM 189 39 0 05 May 2023
Otter: A Multi-Modal Model with In-Context Instruction TuningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023 Yue Liu Yuanhan Zhang Liangyu Chen Jinghao Wang Fanyi Pu Joshua Adrian Cahyono Jingkang Yang Yu Qiao MLLM 456 615 0 05 May 2023
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language ModelsInternational Conference on Learning Representations (ICLR), 2023 Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li Mohamed Elhoseiny VLM MLLM 424 2,654 0 20 Apr 2023
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Renrui Zhang Jiaming Han Chris Liu Shiyang Feng Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Jiaming Song Yu Qiao MLLM 516 924 0 28 Mar 2023