v1v2 (latest)

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

Neural Information Processing Systems (NeurIPS), 2022

20 September 2022

Oyvind Tafjord

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering"

50 / 1,273 papers shown

DIQ-H: Evaluating Hallucination Persistence in VLMs Under Temporal Visual Degradation

149

03 Dec 2025

MemVerse: Multimodal Memory for Lifelong Learning Agents

...

195

03 Dec 2025

See, Think, Learn: A Self-Taught Multimodal Reasoner

229

02 Dec 2025

Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models

267

02 Dec 2025

OneThinker: All-in-one Reasoning Model for Image and Video

...

664

02 Dec 2025

Lost in Modality: Evaluating the Effectiveness of Text-Based Membership Inference Attacks on Large Multimodal Models

Ziyi Tong

Feifei Sun

Le Minh Nguyen

02 Dec 2025

FiMMIA: scaling semantic perturbation-based membership inference across modalities

Anton A. Emelyanov

Sergei Kudriashov

Alena Fenogenova

142

02 Dec 2025

Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models

188

01 Dec 2025

PhyDetEx: Detecting and Explaining the Physical Plausibility of T2V Models

130

01 Dec 2025

Comparative Analysis of 47 Context-Based Question Answer Models Across 8 Diverse Datasets

Muhammad Muneeb

David B. Ascher

Ahsan Baidar Bakht

29 Nov 2025

Better, Stronger, Faster: Tackling the Trilemma in MLLM-based Segmentation with Simultaneous Textual Mask Prediction

Jiazhen Liu

Mingkuan Feng

Long Chen

29 Nov 2025

AgriCoT: A Chain-of-Thought Benchmark for Evaluating Reasoning in Vision-Language Models for Agriculture

...

161

28 Nov 2025

A Rosetta Stone for AI Benchmarks

A. Ho

Jean-Stanislas Denain

265

28 Nov 2025

EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens

171

26 Nov 2025

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

121

25 Nov 2025

^3

Prune: Hierarchical Communication Graph Pruning for Efficient Multi-Modal Multi-Agent Retrieval-Augmented Generation

25 Nov 2025

Harmonious Parameter Adaptation in Continual Visual Instruction Tuning for Safety-Aligned MLLMs

196

25 Nov 2025

Object-Centric Vision Token Pruning for Vision Language Models

174

25 Nov 2025

INTERLACE: Interleaved Layer Pruning and Efficient Adaptation in Large Vision-Language Models

181

24 Nov 2025

Parallel Vision Token Scheduling for Fast and Accurate Multimodal LMMs Inference

220

24 Nov 2025

Cross Domain Evaluation of Multimodal Chain-of-Thought Reasoning of different datasets into the Amazon CoT Framework

100

24 Nov 2025

BackdoorVLM: A Benchmark for Backdoor Attacks on Vision-Language Models

198

24 Nov 2025

Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

Yiming Qin

Bomin Wei

Jiaxin Ge

Konstantinos Kallidromitis

250

24 Nov 2025

Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

...

139

24 Nov 2025

VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL

226

24 Nov 2025

Self-Empowering VLMs: Achieving Hierarchical Consistency via Self-Elicited Knowledge Distillation

131

23 Nov 2025

FastMMoE: Accelerating Multimodal Large Language Models through Dynamic Expert Activation and Routing-Aware Token Pruning

187

22 Nov 2025

The PLLuM Instruction Corpus

...

104

21 Nov 2025

Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models

Mark Endo

Serena Yeung-Levy

LRM

238

21 Nov 2025

EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards

Omkar Thawakar

Shravan Venkatraman

Ritesh Thawkar

Abdelrahman M. Shaker

325

20 Nov 2025

Learning to Think Fast and Slow for Visual Language Models

225

20 Nov 2025

Q-MLLM: Vector Quantization for Robust Multimodal Large Language Model Security

104

20 Nov 2025

Parameter Importance-Driven Continual Learning for Foundation Models

481

19 Nov 2025

A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models

155

19 Nov 2025

Multimodal Evaluation of Russian-language Architectures

...

319

19 Nov 2025

Zero-Training Task-Specific Model Synthesis for Few-Shot Medical Image Classification

135

18 Nov 2025

SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

230

17 Nov 2025

CreBench: Human-Aligned Creativity Evaluation from Idea to Process to Product

...

121

17 Nov 2025

From Perception to Reasoning: Deep Thinking Empowers Multimodal Large Language Models

450

17 Nov 2025

Explore How to Inject Beneficial Noise in MLLMs

205

17 Nov 2025

Learning with Preserving for Continual Multitask Learning

193

11 Nov 2025

Knowledge-Augmented Long-CoT Generation for Complex Biomolecular Reasoning

108

11 Nov 2025

Efficient Test-Time Scaling of Multi-Step Reasoning by Probing Internal States of Large Language Models

...

228

09 Nov 2025

NVIDIA Nemotron Nano V2 VL

Nvidia

Amala Sanjay Deshmukh

...

310

06 Nov 2025

ChiMDQA: Towards Comprehensive Chinese Document QA with Fine-grained EvaluationInternational Conference on Artificial Neural Networks (ICANN), 2025

111

05 Nov 2025

QG-CoC: Question-Guided Chain-of-Captions for Large Multimodal Models

157

05 Nov 2025

SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

237

04 Nov 2025

Multimodal Reasoning via Latent Refocusing

179

04 Nov 2025

Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models

...

273

04 Nov 2025

When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

...

256

04 Nov 2025