v1v2 (latest)

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

Neural Information Processing Systems (NeurIPS), 2022

20 September 2022

Oyvind Tafjord

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering"

50 / 1,273 papers shown

Multimodal Commonsense Knowledge Distillation for Visual Question Answering

125

05 Nov 2024

Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios

...

359

05 Nov 2024

LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

613

01 Nov 2024

Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

Taylor Berg-Kirkpatrick

Rose Yu

541

01 Nov 2024

PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures

135

30 Oct 2024

Causal Interventions on Causal Paths: Mapping GPT-2's Reasoning From Syntax to Semantics

170

28 Oct 2024

What Factors Affect Multi-Modal In-Context Learning? An In-Depth ExplorationNeural Information Processing Systems (NeurIPS), 2024

L. Qin

Qiguang Chen

Hao Fei

Zhi Chen

Min Li

Wanxiang Che

212

27 Oct 2024

Sensor2Text: Enabling Natural Language Interactions for Daily Activity Tracking Using Wearable SensorsProceedings of the ACM on Interactive Mobile Wearable and Ubiquitous Technologies (IMWUT), 2024

274

26 Oct 2024

Can Stories Help LLMs Reason? Curating Information Space Through Narrative

154

25 Oct 2024

CAMEL-Bench: A Comprehensive Arabic LMM Benchmark

214

24 Oct 2024

Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow ExtractionConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Sergio Burdisso

S. Madikeri

P. Motlícek

350

24 Oct 2024

ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language TuningInternational Journal of Computer Vision (IJCV), 2024

295

23 Oct 2024

MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language ModelsInternational Conference on Learning Representations (ICLR), 2024

Ziyu Liu

Yuhang Cao

Jiaqi Wang

244

23 Oct 2024

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

...

Yuhang Cao

Jiaqi Wang

337

136

22 Oct 2024

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

Zhe Chen

...

405

21 Oct 2024

Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models

Jinqiao Wang

298

21 Oct 2024

Mitigating Object Hallucination via Concentric Causal AttentionNeural Information Processing Systems (NeurIPS), 2024

277

21 Oct 2024

LLaVA-KD: A Framework of Distilling Multimodal Large Language Models

441

21 Oct 2024

MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning StepsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Haojing Chen

Víctor Gutiérrez-Basulto

Jeff Z. Pan

Ningyu Zhang

LRM

376

18 Oct 2024

NaturalBench: Evaluating Vision-Language Models on Natural Adversarial SamplesNeural Information Processing Systems (NeurIPS), 2024

659

18 Oct 2024

ViCToR: Improving Visual Comprehension via Token Reconstruction for Pretraining LMMs

373

18 Oct 2024

Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language AlignmentInternational Conference on Learning Representations (ICLR), 2024

Huaxiu Yao

657

18 Oct 2024

Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers

277

17 Oct 2024

γ-

MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

286

17 Oct 2024

Can MLLMs Understand the Deep Implication Behind Chinese Images?Annual Meeting of the Association for Computational Linguistics (ACL), 2024

...

161

17 Oct 2024

Improving Multi-modal Large Language Model through Boosting Vision Capabilities

Jingdong Wang

213

17 Oct 2024

HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks

Yue Wang

335

16 Oct 2024

Understanding the Role of LLMs in Multimodal Evaluation Benchmarks

Zhaowei Li

214

16 Oct 2024

Model Balancing Helps Low-data Training and Fine-tuningConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

227

16 Oct 2024

Cross-Modal Safety Mechanism Transfer in Large Vision-Language ModelsInternational Conference on Learning Representations (ICLR), 2024

303

16 Oct 2024

MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding

Yangzhou Liu

252

15 Oct 2024

VisualRWKV-HD and UHD: Advancing High-Resolution Processing for Visual Language Models

Zihang Li

Haowen Hou

135

15 Oct 2024

MCTBench: Multimodal Cognition towards Text-Rich Visual Scenes Benchmark

241

15 Oct 2024

A Systematic Review on Prompt Engineering in Large Language Models for K-12 STEM Education

216

14 Oct 2024

MEV Capture Through Time-Advantaged Arbitrage

257

14 Oct 2024

AlphaLoRA: Assigning LoRA Experts Based on Layer Training QualityConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

264

14 Oct 2024

Can We Predict Performance of Large Models across Vision-Language Tasks?

498

14 Oct 2024

MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language ModelsInternational Conference on Learning Representations (ICLR), 2024

Zhaoyang Wang

...

Huaxiu Yao

348

14 Oct 2024

$Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection$

Adapt-

\infty

: Scalable Continual Multimodal Instruction Tuning via Dynamic Data SelectionInternational Conference on Learning Representations (ICLR), 2024

332

14 Oct 2024

Towards Efficient Visual-Language Alignment of the Q-Former for Visual Reasoning TasksConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Sungkyung Kim

Adam Lee

Junyoung Park

Andrew Chung

Jusang Oh

Jay-Yoon Lee

12 Oct 2024

Skipping Computations in Multimodal LLMs

Mustafa Shukor

Matthieu Cord

239

12 Oct 2024

Unraveling and Mitigating Safety Alignment Degradation of Vision-Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Srikanth Doss Kadarundalagi Raghuram Doss

Lluís Marquez

Miguel Ballesteros

Yassine Benajiba

288

11 Oct 2024

Extracting and Combining Abilities For Building Multi-lingual Ability-enhanced Large Language Models

418

10 Oct 2024

MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal ModelsInternational Conference on Learning Representations (ICLR), 2024

Pan Lu

Kai-Wei Chang

Nanyun Peng

VLM

370

10 Oct 2024

Emergent Visual Grounding in Large Multimodal Models Without Grounding Supervision

Shengcao Cao

Liang-Yan Gui

Yu Wang

249

10 Oct 2024

Q-VLM: Post-training Quantization for Large Vision-Language ModelsNeural Information Processing Systems (NeurIPS), 2024

456

10 Oct 2024

Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2024

Zhaokai Wang

Yu Qiao

Xizhou Zhu

VLM MLLM

383

10 Oct 2024

MoDEM: Mixture of Domain Expert ModelsAustralasian Language Technology Association Workshop (ALTA), 2024

276

09 Oct 2024

Exploring Prompt Engineering: A Systematic Review with SWOT Analysis

234

09 Oct 2024

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

Qidong Huang

Xiaoyi Dong

Pan Zhang

Yuhang Zang

Yuhang Cao

Jiaqi Wang

Dahua Lin

Weiming Zhang

Nenghai Yu

192

09 Oct 2024