Title
SVIT: Scaling up Visual Instruction Tuning Bo Zhao Boya Wu Muyang He Tiejun Huang MLLM 261 157 0 09 Jul 2023
MultiQG-TI: Towards Question Generation from Multi-modal SourcesWorkshop on Innovative Use of NLP for Building Educational Applications (UNBEA), 2023 Zichao Wang Richard Baraniuk 105 7 0 07 Jul 2023
CARE-MI: Chinese Benchmark for Misinformation Evaluation in Maternity and Infant CareNeural Information Processing Systems (NeurIPS), 2023 Tong Xiang Liangzhi Li Wangyue Li Min‐Jun Bai Lu Wei Bowen Wang Noa Garcia 277 8 0 04 Jul 2023
SCITUNE: Aligning Large Language Models with Scientific Multimodal Instructions Sameera Horawalavithana Sai Munikoti Ian Stewart Henry Kvinge MLLM 129 26 0 03 Jul 2023
Visual Instruction Tuning with Polite FlamingoAAAI Conference on Artificial Intelligence (AAAI), 2023 Delong Chen Jianfeng Liu Wenliang Dai Baoyuan Wang MLLM 332 52 0 03 Jul 2023
LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image Understanding Yanzhe Zhang Ruiyi Zhang Jiuxiang Gu Jiuxiang Gu Nedim Lipka Diyi Yang Tongfei Sun VLM MLLM 272 281 0 29 Jun 2023
Large Multimodal Models: Notes on CVPR 2023 Tutorial Chunyuan Li MLLM VLM 250 21 0 26 Jun 2023
A Survey on Multimodal Large Language ModelsNational Science Review (NSR), 2023 Xinglong Mao Chaoyou Fu Zhengye Zhang Ke Li Xing Sun Tong Xu Enhong Chen MLLM LRM 421 961 0 23 Jun 2023
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models Chaoyou Fu Peixian Chen Chunjiang Ge Yulei Qin Mengdan Zhang ... Xing Sun Zhenyu Qiu Rongrong Ji Caifeng Shan Ran He ELM MLLM 737 1,204 0 23 Jun 2023
Analysis of the Cambridge Multiple-Choice Questions Reading Dataset with a Focus on Candidate Response Distribution Adian Liusie Vatsal Raina Andrew Mullooly Kate Knill Mark Gales 189 6 0 22 Jun 2023
Harnessing the Power of Adversarial Prompting and Large Language Models for Robust Hypothesis Generation in Astronomy I. Ciucă Y. Ting 丁 Sandor Kruk K. Iyer 164 15 0 20 Jun 2023
Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering Rabiul Awal Le Zhang Aishwarya Agrawal LRM 337 18 0 16 Jun 2023
Thrilled by Your Progress! Large Language Models (GPT-4) No Longer Struggle to Pass Assessments in Higher Education Programming CoursesInternational Computing Education Research Workshop (ICER), 2023 Jaromír Šavelka Arav Agarwal Marshall An Chris Bogart M. Sakr ELM 247 131 0 15 Jun 2023
LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language ModelsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023 Peng Xu Wenqi Shao Kaipeng Zhang Shiyang Feng Shuo Liu Meng Lei Fanqing Meng Siyuan Huang Yu Qiao Ping Luo ELM MLLM 285 227 0 15 Jun 2023
Valley: Video Assistant with Large Language model Enhanced abilitY Ruipu Luo Ziwang Zhao Min Yang Junwei Dong Da Li Pengcheng Lu Tao Wang Linmei Hu Ming-Hui Qiu MLLM 491 250 0 12 Jun 2023
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and BenchmarkNeural Information Processing Systems (NeurIPS), 2023 Zhen-fei Yin Zhenghao Hu Jianjian Cao Zhelun Shi Dingning Liu ... Mengwei He Xiaoshui Huang Zhiyong Wang Jing Shao Wanli Ouyang MLLM 228 204 0 11 Jun 2023
Multimodal Explainable Artificial Intelligence: A Comprehensive Review of Methodological Advances and Future Research DirectionsIEEE Access (IEEE Access), 2023 N. Rodis Christos Sardianos Panagiotis I. Radoglou-Grammatikis Panagiotis G. Sarigiannidis Iraklis Varlamis Georgios Th. Papadopoulos 281 38 0 09 Jun 2023
Multimodal Learning Without Labeled Multimodal Data: Guarantees and ApplicationsInternational Conference on Learning Representations (ICLR), 2023 Paul Pu Liang Chun Kai Ling Yun Cheng A. Obolenskiy Yudong Liu Rohan Pandey Alex Wilf Louis-Philippe Morency Ruslan Salakhutdinov OffRL 220 20 0 07 Jun 2023
M $^3$ IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning Lei Li Yuwei Yin Shicheng Li Liang Chen Peiyi Wang ... Yazheng Yang Jingjing Xu Xu Sun Lingpeng Kong Qi Liu MLLM VLM 324 135 0 07 Jun 2023
Deductive Verification of Chain-of-Thought ReasoningNeural Information Processing Systems (NeurIPS), 2023 Z. Ling Yunhao Fang Xuanlin Li Zhiao Huang Mingu Lee Roland Memisevic Hao Su ReLM LRM 430 193 0 06 Jun 2023
AWQ: Activation-aware Weight Quantization for LLM Compression and AccelerationConference on Machine Learning and Systems (MLSys), 2023 Ji Lin Jiaming Tang Haotian Tang Shang Yang Wei-Ming Chen Wei-Chen Wang Guangxuan Xiao Xingyu Dang Chuang Gan Song Han EDL MQ 803 930 0 01 Jun 2023
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One DayNeural Information Processing Systems (NeurIPS), 2023 Chunyuan Li Cliff Wong Sheng Zhang Naoto Usuyama Haotian Liu Jianwei Yang Tristan Naumann Hoifung Poon Jianfeng Gao LM&MA MedIm 249 1,264 0 01 Jun 2023
Adapting Pre-trained Language Models to Vision-Language Tasks via Dynamic Visual PromptingIEEE International Joint Conference on Neural Network (IJCNN), 2023 Shubin Huang Qiong Wu Weihao Ye Weijie Chen Rongsheng Zhang Xiaoshuai Sun Rongrong Ji VLM VPVLM LRM 103 2 0 01 Jun 2023
CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language TransformersInternational Conference on Machine Learning (ICML), 2023 Dachuan Shi Chaofan Tao Anyi Rao Zhendong Yang Chun Yuan Yuan Liu VLM 414 36 0 27 May 2023
Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models Yao Yao Z. Li Hai Zhao ReLM LRM 253 42 0 26 May 2023
Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Daman Arora H. Singh Mausam ELM LRM 376 75 0 24 May 2023
Reasoning over Hierarchical Question Decomposition Tree for Explainable Question AnsweringAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Jiajie Zhang S. Cao Tingjia Zhang Xin Lv Jiaxin Shi Qingwen Tian Juanzi Li Lei Hou 136 16 0 24 May 2023
Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language ModelsNeural Information Processing Systems (NeurIPS), 2023 Gen Luo Weihao Ye Tianhe Ren Shen Chen Xiaoshuai Sun Rongrong Ji VLM MLLM 282 134 0 24 May 2023
The ACL OCL Corpus: Advancing Open Science in Computational LinguisticsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Shaurya Rohatgi Yanxia Qin Benjamin Aw Niranjana Unnithan MingSung Kan LMTD 177 16 0 24 May 2023
Exploring Diverse In-Context Configurations for Image CaptioningNeural Information Processing Systems (NeurIPS), 2023 Xu Yang Yongliang Wu Mingzhuo Yang Haokun Chen Xin Geng MLLM 211 76 0 24 May 2023
Chain-of-Knowledge: Grounding Large Language Models via Dynamic Knowledge Adapting over Heterogeneous SourcesInternational Conference on Learning Representations (ICLR), 2023 Xingxuan Li Ruochen Zhao Yew Ken Chia Bosheng Ding Shafiq Joty Soujanya Poria Lidong Bing HILM BDL LRM 416 140 0 22 May 2023
Distilling ChatGPT for Explainable Automated Student Answer AssessmentConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Jiazheng Li Lin Gui Yuxiang Zhou David West Cesare Aloisi Yulan He 174 31 0 22 May 2023
Beneath Surface Similarity: Large Language Models Make Reasonable Scientific Analogies after Structure AbductionConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Siyu Yuan Jiangjie Chen Xuyang Ge Yanghua Xiao Deqing Yang 223 12 0 22 May 2023
TheoremQA: A Theorem-driven Question Answering datasetConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Wenhu Chen Ming Yin Max Ku Pan Lu Yixin Wan Xueguang Ma Jianyu Xu Xinyi Wang Tony Xia AIMat 292 183 0 21 May 2023
What Makes for Good Visual Tokenizers for Large Language Models? Guangzhi Wang Yixiao Ge Xiaohan Ding Mohan S. Kankanhalli Ying Shan MLLM VLM 235 44 0 20 May 2023
VNHSGE: VietNamese High School Graduation Examination Dataset for Large Language Models Dao Xuan-Quy Le Ngoc-Bich Vo The-Duy Phan Xuan-Dung Ngo Bac-Bien Nguyen Van-Tien Nguyen Thi-My-Thanh Nguyen Hong-Phuoc 123 21 0 20 May 2023
Empower Large Language Model to Perform Better on Industrial Domain-Specific Question AnsweringConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Fangkai Yang Lu Wang Zezhong Wang Lu Wang Jue Zhang Mohit Garg Qingwei Lin Saravan Rajmohan Dongmei Zhang 225 69 0 19 May 2023
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction TuningNeural Information Processing Systems (NeurIPS), 2023 Wenliang Dai Junnan Li Dongxu Li A. M. H. Tiong Junqi Zhao Weisheng Wang Boyang Albert Li Pascale Fung Steven C. H. Hoi MLLM VLM 1.0K 2,833 0 11 May 2023
Augmented Large Language Models with Parametric Knowledge Guiding Ziyang Luo Can Xu Lu Wang Xiubo Geng Chongyang Tao Jing Ma Qingwei Lin Daxin Jiang KELM RALM 291 54 0 08 May 2023
T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large Language Model Signals for Science Question AnsweringAAAI Conference on Artificial Intelligence (AAAI), 2023 Lei Wang Yilang Hu Jiabang He Xingdong Xu Ning Liu Hui-juan Liu Hengtao Shen LRM MLLM 314 79 0 05 May 2023
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model Shiyang Feng Jiaming Han Renrui Zhang Ziyi Lin Shijie Geng ... Pan Lu Conghui He Xiangyu Yue Jiaming Song Yu Qiao MLLM 266 695 0 28 Apr 2023
Chameleon: Plug-and-Play Compositional Reasoning with Large Language ModelsNeural Information Processing Systems (NeurIPS), 2023 Pan Lu Baolin Peng Hao Cheng Michel Galley Kai-Wei Chang Ying Nian Wu Song-Chun Zhu Jianfeng Gao KELM MLLM LRM 333 409 0 19 Apr 2023
Visual Instruction TuningNeural Information Processing Systems (NeurIPS), 2023 Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 1.1K 7,256 0 17 Apr 2023
In-Context Operator Learning with Data Prompts for Differential Equation ProblemsProceedings of the National Academy of Sciences of the United States of America (PNAS), 2023 Liu Yang Siting Liu Tingwei Meng Stanley J. Osher 318 91 0 17 Apr 2023
Chain of Thought Prompt Tuning in Vision Language Models Jiaxin Ge Hongyin Luo Siyuan Qian Yulu Gan Jie Fu Shanghang Zhang VLM LRM MLLM 242 34 0 16 Apr 2023
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Renrui Zhang Jiaming Han Chris Liu Shiyang Feng Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Jiaming Song Yu Qiao MLLM 544 929 0 28 Mar 2023
MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action Zhengyuan Yang Linjie Li Jianfeng Wang Kevin Qinghong Lin E. Azarnasab Faisal Ahmed Zicheng Liu Ce Liu Michael Zeng Lijuan Wang ReLM KELM LRM 278 493 0 20 Mar 2023
Retrieving Multimodal Information for Augmented Generation: A SurveyConference on Empirical Methods in Natural Language Processing (EMNLP), 2023 Ruochen Zhao Hailin Chen Weishi Wang Fangkai Jiao Do Xuan Long ... Bosheng Ding Xiaobao Guo Minzhi Li Xingxuan Li Shafiq Joty 382 124 0 20 Mar 2023
Can Generative Pre-trained Transformers (GPT) Pass Assessments in Higher Education Programming Courses? Jaromír Šavelka Arav Agarwal Chris Bogart Yifan Song M. Sakr ELM 155 115 0 16 Mar 2023
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models Chenfei Wu Sheng-Kai Yin Weizhen Qi Xiaodong Wang Zecheng Tang Nan Duan MLLM LRM 354 755 0 08 Mar 2023