v1v2 (latest)

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

Neural Information Processing Systems (NeurIPS), 2022

20 September 2022

Oyvind Tafjord

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering"

50 / 1,273 papers shown

Programming Refusal with Conditional Activation SteeringInternational Conference on Learning Representations (ICLR), 2024

Bruce W. Lee

Inkit Padhi

Karthikeyan N. Ramamurthy

504

06 Sep 2024

Experimentation in Content Moderation using RWKV

186

05 Sep 2024

CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation

308

03 Sep 2024

Recoverable Compression: A Multimodal Vision Token Recovery Mechanism Guided by Text InformationAAAI Conference on Artificial Intelligence (AAAI), 2024

Yi Chen

Jian Xu

Xu-Yao Zhang

Wen-Zhuo Liu

Yang-Yang Liu

Cheng-Lin Liu

294

02 Sep 2024

Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models

Gaotong Yu

Yi Chen

Jian Xu

02 Sep 2024

Retrieval-Augmented Natural Language Reasoning for Explainable Visual Question Answering

200

30 Aug 2024

AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding

Yonghui Wang

Wengang Zhou

Hao Feng

Houqiang Li

VLM

166

30 Aug 2024

VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision ComputationNeural Information Processing Systems (NeurIPS), 2024

Shiwei Wu

Joya Chen

Kevin Qinghong Lin

Enhong Chen

Mike Zheng Shou

VLM

250

29 Aug 2024

CogVLM2: Visual Language Models for Image and Video Understanding

...

Bin Xu

Juanzi Li

Yuxiao Dong

Jie Tang

VLM MLLM

303

200

29 Aug 2024

LLaVA-SG: Leveraging Scene Graphs as Visual Semantic Expression in Vision-Language ModelsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

346

29 Aug 2024

Law of Vision Representation in MLLMs

593

29 Aug 2024

LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge DistillationInternational Conference on Learning Representations (ICLR), 2024

Fangxun Shu

Yue Liao

...

Si Liu

Hongsheng Li

Hao Jiang

VLM MoE

210

28 Aug 2024

A Survey on Evaluation of Multimodal Large Language Models

Jiaxing Huang

Jingyi Zhang

LM&MA ELM LRM

309

28 Aug 2024

GlaLSTM: A Concurrent LSTM Stream Framework for Glaucoma Detection via Biomarker Mining

382

28 Aug 2024

Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and AnalysisIEEE International Joint Conference on Neural Network (IJCNN), 2024

136

27 Aug 2024

I2EBench: A Comprehensive Benchmark for Instruction-based Image EditingNeural Information Processing Systems (NeurIPS), 2024

Jiayi Ji

Xiaoshuai Sun

Rongrong Ji

302

26 Aug 2024

Tangram: A Challenging Benchmark for Geometric Element Recognizing

25 Aug 2024

Has Multimodal Learning Delivered Universal Intelligence in Healthcare? A Comprehensive SurveyInformation Fusion (Inf. Fusion), 2024

Ling Huang

Mengling Feng

298

23 Aug 2024

IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal CapabilitiesAAAI Conference on Artificial Intelligence (AAAI), 2024

486

23 Aug 2024

ParGo: Bridging Vision-Language with Partial and Global ViewsAAAI Conference on Artificial Intelligence (AAAI), 2024

526

23 Aug 2024

Building and better understanding vision-language models: insights and future directions

Hugo Laurençon

320

133

22 Aug 2024

Large Language Models Are Self-Taught Reasoners: Enhancing LLM Applications via Tailored Problem-Solving Demonstrations

Kai Tzu-iunn Ong

Taeyoon Kwon

Jinyoung Yeo

LRM

132

22 Aug 2024

EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model

Yizhou Zhou

Siying Wu

Fengyun Rao

Yueyi Zhang

Xiaoyan Sun

486

21 Aug 2024

Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework

240

21 Aug 2024

SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

332

21 Aug 2024

GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models

Jonathan Roberts

Kai Han

Samuel Albanie

278

21 Aug 2024

HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments

Kazi Hasan Ibn Arif

JinYi Yoon

Dimitrios S. Nikolopoulos

233

20 Aug 2024

CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMsEuropean Conference on Computer Vision (ECCV), 2024

Yassine Ouali

Adrian Bulat

Brais Martínez

Georgios Tzimiropoulos

VLM MLLM

298

19 Aug 2024

Visual Agents as Fast and Slow ThinkersInternational Conference on Learning Representations (ICLR), 2024

Zhenting Wang

551

16 Aug 2024

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

...

531

146

16 Aug 2024

CROME: Cross-Modal Adapters for Efficient Multimodal LLM

Sayna Ebrahimi

Sercan O. Arik

Tejas Nama

Tomas Pfister

203

13 Aug 2024

VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

Yifan Xu

...

Zhengxiao Du

Chan Hee Song

Yu Su

Yuxiao Dong

Jie Tang

VLM LLMAG

253

12 Aug 2024

Towards a Generative Approach for Emotion Detection and Reasoning

Ankita Bhaumik

T. Strzalkowski

ReLM LRM

216

09 Aug 2024

VITA: Towards Open-Source Interactive Omni Multimodal LLM

...

580

150

09 Aug 2024

Img-Diff: Contrastive Data Synthesis for Multimodal Large Language ModelsComputer Vision and Pattern Recognition (CVPR), 2024

Yaliang Li

286

08 Aug 2024

Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient AdaptationACM Multimedia (MM), 2024

Rongrong Ji

184

07 Aug 2024

MoExtend: Tuning New Experts for Modality and Task ExtensionAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Shanshan Zhong

Pan Zhou

282

07 Aug 2024

LLaVA-OneVision: Easy Visual Task Transfer

Bo Li

Yuanhan Zhang

Dong Guo

Renrui Zhang

Feng Li

Hao Zhang

Kaichen Zhang

Yanwei Li

Ziwei Liu

Chunyuan Li

MLLM SyDa VLM

581

1,788

06 Aug 2024

PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning

Min Jae Jung

Romain Rouvoy

KELM MoE CLL

245

31 Jul 2024

Autonomous Improvement of Instruction Following Skills via Foundation Models

254

30 Jul 2024

LLAVADI: What Matters For Multimodal Large Language Models Distillation

Xiangtai Li

Ming-Hsuan Yang

225

28 Jul 2024

Data Processing Techniques for Modern Multimodal Models

298

27 Jul 2024

VILA^2

: VILA Augmented VILA

Song Han

256

24 Jul 2024

Multi-label Cluster Discrimination for Visual Representation Learning

Xiang An

328

24 Jul 2024

MLLM-CompBench: A Comparative Reasoning Benchmark for Multimodal LLMs

Wei-Lun Chao

387

23 Jul 2024

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

Jiayi Ji

244

23 Jul 2024

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

...

Yu Qiao

322

22 Jul 2024

Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight

Jingdong Chen

Ming Yang

LRM

229

22 Jul 2024

XAI meets LLMs: A Survey of the Relation between Explainable AI and Large Language Models

334

21 Jul 2024

LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

Joshua Adrian Cahyono

...

473

199

17 Jul 2024