v1v2 (latest)

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

Neural Information Processing Systems (NeurIPS), 2022

20 September 2022

Oyvind Tafjord

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering"

50 / 1,278 papers shown

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

Jiayi Ji

247

23 Jul 2024

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

...

Yu Qiao

331

22 Jul 2024

Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight

Jingdong Chen

Ming Yang

LRM

234

22 Jul 2024

XAI meets LLMs: A Survey of the Relation between Explainable AI and Large Language Models

338

21 Jul 2024

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

Joshua Adrian Cahyono

...

479

207

17 Jul 2024

FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

Tao Yuan

Mehrtash Harandi

312

16 Jul 2024

Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models

322

16 Jul 2024

VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

...

746

394

16 Jul 2024

On Large Language Model Continual Unlearning

288

14 Jul 2024

The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

Bolin Ding

Yaliang Li

Shuiguang Deng

364

11 Jul 2024

DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

351

11 Jul 2024

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

Runhui Huang

214

11 Jul 2024

SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning

Xu Jia

271

10 Jul 2024

Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram

Zhong-Zhi Li

Cheng-Lin Liu

183

10 Jul 2024

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

563

101

10 Jul 2024

A Single Transformer for Scalable Vision-Language Modeling

305

08 Jul 2024

VideoCoT: A Video Chain-of-Thought Dataset with Active Annotation Tool

Xiangmin Xu

224

07 Jul 2024

OmChat: A Recipe to Train Multimodal Language Models with Strong Long Context and Video Understanding

273

06 Jul 2024

Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge

Dongdong Chen

238

05 Jul 2024

A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations

Md Tahmid Rahman Laskar

Sawsan Alqahtani

M Saiful Bari

Mizanur Rahman

Mohammad Abdullah Matin Khan

...

Enamul Hoque

Jimmy Huang

284

100

04 Jul 2024

HEMM: Holistic Evaluation of Multimodal Foundation Models

Paul Pu Liang

Louis-Philippe Morency

365

03 Jul 2024

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

Pan Zhang

Xiaoyi Dong

Yuhang Zang

Yuhang Cao

Rui Qian

...

Kai Chen

Jifeng Dai

Yu Qiao

Dahua Lin

Jiaqi Wang

313

175

03 Jul 2024

Synthetic Multimodal Question Generation

259

02 Jul 2024

Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application

Chuanpeng Yang

Wang Lu

Yao Zhu

Yidong Wang

Yiqiang Chen

294

02 Jul 2024

Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

Dinesh Manocha

418

01 Jul 2024

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning?

Guanting Dong

...

Chen Li

327

186

01 Jul 2024

Efficient Expert Pruning for Sparse Mixture-of-Experts Language Models: Enhancing Performance and Reducing Inference Costs

Enshu Liu

Huazhong Yang

Yu Wang

MoE

269

01 Jul 2024

MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs

721

01 Jul 2024

BAPO: Base-Anchored Preference Optimization for Personalized Alignment in Large Language Models

Sangmook Kim

279

30 Jun 2024

MMEvalPro: Calibrating Multimodal Benchmarks Towards Trustworthy and Efficient Evaluation

Liang Chen

...

Tianyu Liu

Ming Zhang

421

29 Jun 2024

Web2Code: A Large-scale Webpage-to-Code Dataset and Evaluation Framework for Multimodal LLMs

...

Zhengzhong Liu

Eric P. Xing

Xiaodan Liang

Zhiqiang Shen

213

28 Jun 2024

LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression

Ju He

Alan Yuille

174

28 Jun 2024

From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis

Wei Wu

230

28 Jun 2024

MM-Instruct: Generated Visual Instructions for Large Multimodal Model Alignment

Xin Huang

Boxiao Liu

Yu Liu

Hongsheng Li

MLLM SyDa

233

28 Jun 2024

MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics?

Yichen Zhu

Yaxin Peng

245

28 Jun 2024

CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models

Zhong-Zhi Li

Zhen-Ru Pan

Jian Xu

Cheng-Lin Liu

187

28 Jun 2024

Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model

Longrong Yang

Dong Shen

Chaoxiang Cai

Fan Yang

447

28 Jun 2024

OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding

Tao Zhang

Xiangtai Li

Hao Fei

Chen Change Loy

353

126

27 Jun 2024

FlowVQA: Mapping Multimodal Logic in Visual Question Answering with Flowcharts

Vivek Gupta

Dan Roth

247

27 Jun 2024

Building Understandable Messaging for Policy and Evidence Review (BUMPER) with AI

Katherine A. Rosenfeld

237

27 Jun 2024

Curriculum Learning with Quality-Driven Data Selection

Biao Wu

Fang Meng

464

27 Jun 2024

Learning to Correct for QA Reasoning with Black-box LLMs

Jaehyung Kim

Dongyoung Kim

Yiming Yang

LRM

254

26 Jun 2024

Mental Modeling of Reinforcement Learning Agents by Language Models

Stefan Wermter

264

26 Jun 2024

S3: A Simple Strong Sample-effective Multimodal Dialog System

Elisei Rykov

Egor Malkershin

Ilseyar Alimova

246

26 Jun 2024

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

Xiangyu Zhao

Xiangtai Li

Haodong Duan

Haian Huang

Yining Li

Kai Chen

Hua Yang

VLM MLLM

365

25 Jun 2024

ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback

322

25 Jun 2024

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

Wenhao Shi

Zhiqiang Hu

Yi Bin

Junhua Liu

Yang Yang

See-Kiong Ng

Lidong Bing

Roy Ka-Wei Lee

SyDa MLLM LRM

422

115

25 Jun 2024

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Sanghyun Woo

...

412

675

24 Jun 2024

Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts

Aditya Sharma

Michael Saxon

William Yang Wang

VLM

274

24 Jun 2024

Evaluating Large Vision-and-Language Models on Children's Mathematical Olympiads

228

22 Jun 2024