v1v2 (latest)

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

Neural Information Processing Systems (NeurIPS), 2022

20 September 2022

Oyvind Tafjord

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering"

50 / 1,273 papers shown

Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning

Timothy Hospedales

278

18 Jun 2024

TroL: Traversal of Layers for Large Language and Vision Models

Yong Man Ro

349

18 Jun 2024

VoCo-LLaMA: Towards Vision Compression with Large Language Models

Yansong Tang

402

18 Jun 2024

MMDU: A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs

Ziyu Liu

Tao Chu

Yuhang Zang

Xilin Wei

Xiaoyi Dong

...

Zijian Liang

Yuanjun Xiong

Yu Qiao

Dahua Lin

Jiaqi Wang

VLM

200

17 Jun 2024

Unveiling Encoder-Free Vision-Language Models

Yueze Wang

Xinlong Wang

246

17 Jun 2024

On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning

Geewook Kim

Minjoon Seo

VLM

239

17 Jun 2024

Improving Multi-Agent Debate with Sparse Communication Topology

Yunxuan Li

Yibing Du

Jiageng Zhang

Le Hou

221

17 Jun 2024

Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression

Jianwei Yin

313

17 Jun 2024

MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models

456

17 Jun 2024

SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model

...

528

17 Jun 2024

Concept-skill Transferability-based Data Selection for Large Vision-Language Models

Jaewoo Lee

Boyang Li

Sung Ju Hwang

VLM

298

16 Jun 2024

Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags

Daiqing Qi

Handong Zhao

Zijun Wei

Sheng Li

269

16 Jun 2024

Mixture-of-Subspaces in Low-Rank Adaptation

Taiqiang Wu

Jiahao Wang

Zhe Zhao

Ngai Wong

541

16 Jun 2024

SciEx: Benchmarking Large Language Models on Scientific Exams with Human Expert Grading and Automatic GradingConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

...

Jan Niehues

194

14 Jun 2024

VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models

Mengdan Zhang

Chaoyou Fu

Rongrong Ji

159

14 Jun 2024

Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language ModelsICON (ICON), 2024

Manas Jhalani

Annervaz K M

Pushpak Bhattacharyya

111

14 Jun 2024

What is the Visual Cognition Gap between Humans and Multimodal LLMs?

...

363

14 Jun 2024

ClimateIQA: A New Dataset and Benchmark to Advance Vision-Language Models in Meteorology Anomalies Analysis

471

14 Jun 2024

Explore the Limits of Omni-modal Pretraining at Scale

Handong Li

255

13 Jun 2024

MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding

Qin Liu

...

Kai-Wei Chang

Dan Roth

Sheng Zhang

Hoifung Poon

Muhao Chen

VLM

339

113

13 Jun 2024

ReMI: A Dataset for Reasoning with Multiple Images

Mehran Kazemi

...

Bahare Fatemi

309

13 Jun 2024

SememeLM: A Sememe Knowledge Enhanced Method for Long-tail Relation Representation

Shuyi Li

Shaojuan Wu

Xiaowang Zhang

Zhiyong Feng

294

13 Jun 2024

SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models

354

13 Jun 2024

MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning

Hanqing Wang

Zeguan Xiao

Shuo Wang

Guanhua Chen

381

13 Jun 2024

MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases

...

Zuxin Liu

Ming Zhu

Huan Wang

Caiming Xiong

Silvio Savarese

245

12 Jun 2024

Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models

Yi-Fan Zhang

Qingsong Wen

Chaoyou Fu

Xue Wang

Zhang Zhang

Liwen Wang

Rong Jin

306

12 Jun 2024

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Zhe Chen

...

Dahua Lin

Yu Qiao

Botian Shi

Conghui He

Jifeng Dai

VLM OffRL

271

12 Jun 2024

Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey

Hongbo Zhang

Zongyang Ma

Wanxiang Che

Bing Qin

352

12 Jun 2024

MLLMGuard: A Multi-dimensional Safety Evaluation Suite for Multimodal Large Language Models

...

Yujiu Yang

Yingchun Wang

293

11 Jun 2024

Needle In A Multimodal Haystack

Shuibo Zhang

...

Yu Qiao

Jifeng Dai

Wenqi Shao

Wenhai Wang

VLM

229

11 Jun 2024

CVQA: Culturally-diverse Multilingual Visual Question Answering BenchmarkNeural Information Processing Systems (NeurIPS), 2024

David Romero

Chenyang Lyu

Haryo Akbarianto Wibowo

...

322

10 Jun 2024

Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024

Yu-Jung Heo

176

10 Jun 2024

SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature

...

487

10 Jun 2024

Evaluating Zero-Shot Long-Context LLM Compression

Chenyu Wang

Yihan Wang

Kai Li

302

10 Jun 2024

M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark

Yadong Li

...

288

08 Jun 2024

BayesAgent: Bayesian Agentic Reasoning Under Uncertainty via Verbalized Probabilistic Graphical Modeling

Hengguan Huang

David Alejandro Duchene

Hao Wang

Samir Bhatt

239

08 Jun 2024

An Empirical Study on Parameter-Efficient Fine-Tuning for MultiModal Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Víctor Gutiérrez-Basulto

Jeff Z. Pan

238

07 Jun 2024

Think out Loud: Emotion Deducing Explanation in Dialogues

Yanan Cao

219

07 Jun 2024

MGIMM: Multi-Granularity Instruction Multimodal Model for Attribute-Guided Remote Sensing Image Detailed DescriptionIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2024

Cong Yang

Zuchao Li

Lefei Zhang

241

07 Jun 2024

POEM: Interactive Prompt Optimization for Enhancing Multimodal Reasoning of Large Language Models

258

06 Jun 2024

Discovering Bias in Latent Space: An Unsupervised Debiasing Approach

308

05 Jun 2024

Wings: Learning Multimodal LLMs without Text-only Forgetting

Yang Li

319

05 Jun 2024

A-Bench: Are LMMs Masters at Evaluating AI-generated Images?

Zijian Chen

426

05 Jun 2024

From Redundancy to Relevance: Enhancing Explainability in Multimodal Large Language Models

Xiaofeng Zhang

191

04 Jun 2024

Multimodal Reasoning with Multimodal Knowledge Graph

Junlin Lee

Yequan Wang

Jing Li

Min Zhang

275

04 Jun 2024

HoneyGPT: Breaking the Trilemma in Terminal Honeypots with Large Language Model

301

04 Jun 2024

Parrot: Multilingual Visual Instruction Tuning

...

718

04 Jun 2024

Dragonfly: Multi-Resolution Zoom Supercharges Large Visual-Language Model

253

03 Jun 2024

Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning

Cheng Tan

Jingxuan Wei

Linzhuang Sun

Zhangyang Gao

Siyuan Li

Bihui Yu

Ruifeng Guo

Stan Z. Li

ReLM LRM 3DV

283

31 May 2024

Ovis: Structural Embedding Alignment for Multimodal Large Language Model

Yang Li

Weihua Luo

Han-Jia Ye

435

128

31 May 2024