v1v2 (latest)

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

Neural Information Processing Systems (NeurIPS), 2022

20 September 2022

Oyvind Tafjord

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering"

50 / 1,273 papers shown

Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization

141

31 May 2024

Visual Perception by Large Language Model's Weights

Yueyi Zhang

166

30 May 2024

Temporal Grounding of Activities using Multimodal Large Language Models

Young Chol Song

280

30 May 2024

Instruction-Guided Visual Masking

268

30 May 2024

PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations

Qi Liu

384

30 May 2024

Enhancing Large Vision Language Models with Self-Training on Image Comprehension

239

30 May 2024

Matryoshka Query Transformer for Large Vision-Language Models

304

29 May 2024

Cracking the Code of Juxtaposition: Can AI Models Understand the Humorous Contradictions

Yiren Lu

Yiran Qiao

Yu Yin

238

29 May 2024

Enhancing Descriptive Image Quality Assessment with A Large-scale Multi-modal DatasetIEEE Transactions on Image Processing (TIP), 2024

479

29 May 2024

PromptWizard: Task-Aware Agent-driven Prompt Optimization Framework

196

28 May 2024

The Evolution of Multimodal Model Architectures

325

28 May 2024

Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment

185

28 May 2024

Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model

Hongxia Yang

132

28 May 2024

LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-design

262

28 May 2024

Matryoshka Multimodal Models

Jianwei Yang

272

27 May 2024

A Survey of Multimodal Large Language Model from A Data-centric Perspective

...

Conghui He

404

26 May 2024

^3

CoT: A Novel Benchmark for Multi-Domain Multi-step Multi-modal Chain-of-Thought

Zhi Chen

Wanxiang Che

325

110

26 May 2024

Accelerating Transformers with Spectrum-Preserving Token Merging

Duy M. Nguyen

Ngan Le

276

25 May 2024

Disease-informed Adaptation of Vision-Language Models

277

24 May 2024

Text Generation: A Systematic Literature Review of Tasks, Evaluation, and Challenges

375

24 May 2024

Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models

Chae Won Kim

339

24 May 2024

M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models

411

24 May 2024

Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement

...

Furong Huang

494

24 May 2024

Calibrated Self-Rewarding Vision Language ModelsNeural Information Processing Systems (NeurIPS), 2024

Zhaorun Chen

304

23 May 2024

AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability

202

23 May 2024

Maintaining Structural Integrity in Parameter Spaces for Parameter Efficient Fine-tuningInternational Conference on Learning Representations (ICLR), 2024

Chongjie Si

Xue Yang

Yu Qiao

Wei Shen

258

23 May 2024

Dynamic Mixture of Experts: An Auto-Tuning Approach for Efficient Transformer ModelsInternational Conference on Learning Representations (ICLR), 2024

557

23 May 2024

Dense Connector for MLLMs

Yifan Sun

Wanli Ouyang

Jingdong Wang

MLLM VLM

224

22 May 2024

Large Language Models Meet NLP: A Survey

476

119

21 May 2024

Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models

Fan Liu

507

21 May 2024

Imp: Highly Capable Large Multimodal Models for Mobile Devices

282

20 May 2024

Rethinking Overlooked Aspects in Vision-Language Models

Yuan Liu

Le Tian

Xiao Zhou

Jie Zhou

VLM

243

20 May 2024

TinyLLaVA Factory: A Modularized Codebase for Small-scale Large Multimodal Models

...

Ji Wu

222

20 May 2024

MemeMQA: Multimodal Question Answering for Memes via Rationale-Based InferencingAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

267

18 May 2024

Efficient Multimodal Large Language Models: A Survey

Yizhang Jin

Jian Li

Yexin Liu

Tianjun Gu

Kai Wu

...

Xin Tan

Zhenye Gan

Yabiao Wang

Chengjie Wang

Lizhuang Ma

LRM

308

17 May 2024

Libra: Building Decoupled Vision System on Large Language ModelsInternational Conference on Machine Learning (ICML), 2024

208

16 May 2024

SciQAG: A Framework for Auto-Generated Science Question Answering Dataset with Fine-grained Evaluation

242

16 May 2024

Enhancing Semantics in Multimodal Chain of Thought via Soft Negative SamplingInternational Conference on Language Resources and Evaluation (LREC), 2024

154

16 May 2024

Beyond Flesch-Kincaid: Prompt-based Metrics Improve Difficulty Classification of Educational TextsWorkshop on Innovative Use of NLP for Building Educational Applications (UNBEA), 2024

Donya Rooein

Paul Rottger

Anastassia Shaitarova

Dirk Hovy

212

15 May 2024

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

211

15 May 2024

CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-ExpertsNeural Information Processing Systems (NeurIPS), 2024

Xinyao Wang

Fan Chen

226

09 May 2024

Memory-Space Visual Prompting for Efficient Vision-Language Fine-TuningInternational Conference on Machine Learning (ICML), 2024

345

09 May 2024

Language-Image Models with 3D UnderstandingInternational Conference on Learning Representations (ICLR), 2024

Jang Hyun Cho

Boris Ivanovic

Yulong Cao

Edward Schmerling

Yue Wang

...

Boyi Li

190

06 May 2024

What matters when building vision-language models?Neural Information Processing Systems (NeurIPS), 2024

313

278

03 May 2024

AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts

Zefang Liu

Jiahua Luo

MoE KELM

346

01 May 2024

How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

...

Dahua Lin

Yu Qiao

Jifeng Dai

Wenhai Wang

MLLM VLM

534

1,004

25 Apr 2024

Continual Learning of Large Language Models: A Comprehensive Survey

409

160

25 Apr 2024

Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges

Badri N. Patro

Vijay Srinivas Agneeswaran

Mamba

368

24 Apr 2024

Cantor: Inspiring Multimodal Chain-of-Thought of MLLM

...

Liujuan Cao

Rongrong Ji

MLLM LRM

306

24 Apr 2024

What Makes Multimodal In-Context Learning Work?

Folco Bertini Baldassini

438

24 Apr 2024