v1v2v3 (latest)

SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers

12 July 2024

Shraman Pramanick

Rama Chellappa

Subhashini Venugopalan

ArXiv (abs)PDF HTML HuggingFace (11 upvotes)Github (76★)

Papers citing "SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers"

50 / 92 papers shown

VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering

229

25 Nov 2025

SciEGQA: A Dataset for Scientific Evidence-Grounded Question Answering and Reasoning

219

19 Nov 2025

SciAgent: A Unified Multi-Agent System for Generalistic Scientific ReasoningMexican International Conference on Artificial Intelligence (MICAI), 2025

...

LLMAG LM&Ro LRM AI4CE

870

11 Nov 2025

An MLCommons Scientific Benchmarks Ontology

Shivaram Venkataraman

127

06 Nov 2025

Expert Evaluation of LLM World Models: A High-

T_c

Superconductivity Case Study

...

Subhashini Venugopalan

Eun-Ah Kim

ELM

199

05 Nov 2025

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

Lukas Selch

Yufang Hou

Muhammad Jehanzeb Mirza

288

18 Oct 2025

Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding

420

17 Oct 2025

A Survey on Parallel Reasoning

...

222

14 Oct 2025

CGBench: Benchmarking Language Model Scientific Reasoning for Clinical Genetics Research

196

13 Oct 2025

PaperArena: An Evaluation Benchmark for Tool-Augmented Agentic Reasoning on Scientific Literature

Qi Liu

408

13 Oct 2025

Table Question Answering in the Era of Large Language Models: A Comprehensive Survey of Tasks, Methods, and Evaluation

235

08 Oct 2025

CMT-Benchmark: A Benchmark for Condensed Matter Theory Built by Expert Researchers

...

292

06 Oct 2025

DPDisc: From Factoid Questions to Data Product Requests for Open-World Data Product Discovery over Tables and Text

L. Zhang

Nandana Mihindukulasooriya

325

30 Sep 2025

Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark

...

192

30 Sep 2025

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

...

212

25 Sep 2025

CEMTM: Contextual Embedding-based Multimodal Topic Modeling

186

14 Sep 2025

Retrieval Enhanced Feedback via In-context Neural Error-book

Jongyeop Hyun

Bumsoo Kim

LRM

347

22 Aug 2025

DocHop-QA: Towards Multi-Hop Reasoning over Multimodal Document Collections

124

20 Aug 2025

MAC: A Live Benchmark for Multimodal Large Language Models in Scientific Understanding

175

14 Aug 2025

Finding Needles in Images: Can Multimodal LLMs Locate Fine Details?Annual Meeting of the Association for Computational Linguistics (ACL), 2025

Chaitanya Devaguptapu

166

07 Aug 2025

Doc2SAR: A Synergistic Framework for High-Fidelity Extraction of Structure-Activity Relationships from Scientific Documents

173

24 Jun 2025

BioMol-MQA: A Multi-Modal Question Answering Dataset For LLM Reasoning Over Bio-Molecular Interactions

229

06 Jun 2025

MuSciClaims: Multimodal Scientific Claim Verification

Niranjan Balasubramanian

299

05 Jun 2025

Argus Inspection: Do Multimodal Large Language Models Possess the Eye of Panoptes?

...

409

03 Jun 2025

EAMET: Robust Massive Model Editing via Embedding Alignment Optimization

326

17 May 2025

IRLBench: A Multi-modal, Culturally Grounded, Parallel Irish-English Benchmark for Open-Ended LLM Reasoning Evaluation

482

16 May 2025

AutoP2C: An LLM-Based Agent Framework for Code Repository Generation from Multimodal Content in Academic Papers

394

28 Apr 2025

FEABench: Evaluating Language Models on Multiphysics Reasoning Ability

N. Mudur

Hao Cui

Subhashini Venugopalan

364

08 Apr 2025

DomainCQA: Crafting Knowledge-Intensive QA from Domain-Specific Charts

581

25 Mar 2025

RoboDesign1M: A Large-scale Dataset for Robot Design Understanding

361

09 Mar 2025

PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

283

24 Feb 2025

Towards Question Answering over Large Semi-structured Tables

438

19 Feb 2025

SCITAT: A Question Answering Benchmark for Scientific Tables and Text Covering Diverse Reasoning Types

1.1K

16 Dec 2024

VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation

421

14 Dec 2024

A Survey on Multimodal Benchmarks: In the Era of Large AI Models

Lin Li

Guikun Chen

Hanrong Shi

Jun Xiao

Long Chen

448

21 Sep 2024

ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages

487

26 Mar 2024

MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

Ziyu Guo

...

403

567

21 Mar 2024

Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models

Lei Li

Yuqi Wang

Runxin Xu

Peiyi Wang

Xiachong Feng

Lingpeng Kong

Qi Liu

389

116

01 Mar 2024

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

...

Yu Qiao

609

146

08 Feb 2024

InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model

...

Conghui He

Xingcheng Zhang

Yu Qiao

Dahua Lin

Yuan Liu

VLM MLLM

427

367

29 Jan 2024

Prometheus-Vision: Vision-Language Model as a Judge for Fine-Grained EvaluationAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

296

12 Jan 2024

CogVLM: Visual Expert for Pretrained Language ModelsNeural Information Processing Systems (NeurIPS), 2023

Weihan Wang

Qingsong Lv

Wenmeng Yu

Wenyi Hong

Ji Qi

...

Bin Xu

Juanzi Li

Yuxiao Dong

Ming Ding

Jie Tang

VLM MLLM

838

772

06 Nov 2023

Improved Baselines with Visual Instruction TuningComputer Vision and Pattern Recognition (CVPR), 2023

746

4,820

05 Oct 2023

Improving Automatic VQA Evaluation Using Large Language ModelsAAAI Conference on Artificial Intelligence (AAAI), 2023

Oscar Manas

Benno Krojer

Aishwarya Agrawal

388

04 Oct 2023

MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual ContextsInternational Conference on Learning Representations (ICLR), 2023

728

1,381

03 Oct 2023

LongLoRA: Efficient Fine-tuning of Long-Context Large Language ModelsInternational Conference on Learning Representations (ICLR), 2023

Zhijian Liu

Song Han

Jiaya Jia

542

246

21 Sep 2023

Llama 2: Open Foundation and Fine-Tuned Chat Models

Louis Martin

...

Sharan Narang

Sergey Edunov

12.3K

16,448

18 Jul 2023

Lost in the Middle: How Language Models Use Long ContextsTransactions of the Association for Computational Linguistics (TACL), 2023

728

3,319

06 Jul 2023

Judging LLM-as-a-Judge with MT-Bench and Chatbot ArenaNeural Information Processing Systems (NeurIPS), 2023

...

3.4K

7,658

09 Jun 2023

UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and ReasoningConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

435

183

24 May 2023