Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge

14 March 2018

Oyvind Tafjord

Papers citing "Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge"

50 / 1,910 papers shown

CEQuest: Benchmarking Large Language Models for Construction Estimation

Y. Wu

L. xilinx Wang

Rui Liu

22 Aug 2025

Systematic Characterization of LLM Quantization: A Performance, Energy, and Quality Perspective

Tianyao Shi

Yi Ding

133

22 Aug 2025

QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

156

22 Aug 2025

WISCA: A Lightweight Model Transition Method to Improve LLM Training via Weight Scaling

...

113

21 Aug 2025

End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost

...

229

21 Aug 2025

CALR: Corrective Adaptive Low-Rank Decomposition for Efficient Large Language Model Layer Compression

Muchammad Daniyal Kautsar

Afra Majida Hariono

Widyawan

Syukron Abu Ishaq Alfarozi

Kuntpong Woraratpanya

162

21 Aug 2025

SLM-Bench: A Comprehensive Benchmark of Small Language Models on Environmental Impacts--Extended Version

174

21 Aug 2025

Dream 7B: Diffusion Large Language Models

1.0K

110

21 Aug 2025

TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill and Decode Inference

197

21 Aug 2025

Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

255

21 Aug 2025

NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

...

298

20 Aug 2025

Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs

178

20 Aug 2025

Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

241

19 Aug 2025

Revisiting RAG Ensemble: A Theoretical and Mechanistic Analysis of Multi-RAG System Collaboration

169

19 Aug 2025

A Fully Spectral Neuro-Symbolic Reasoning Architecture with Graph Signal Processing as the Computational Backbone

Andrew Kiruluta

19 Aug 2025

GLASS: Test-Time Acceleration for LLMs via Global-Local Neural Importance Aggregation

Amirmohsen Sattarifard

104

19 Aug 2025

Sycophancy under Pressure: Evaluating and Mitigating Sycophantic Bias via Adversarial Dialogues in Scientific QA

141

19 Aug 2025

Maximum Score Routing For Mixture-of-ExpertsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

120

18 Aug 2025

RAJ-PGA: Reasoning-Activated Jailbreak and Principle-Guided Alignment Framework for Large Reasoning Models

Xiaochun Cao

Tieyun Qian

LRM

173

18 Aug 2025

Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation

122

18 Aug 2025

ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models

140

17 Aug 2025

Mitigating Jailbreaks with Intent-Aware LLMs

141

16 Aug 2025

AgentCDM: Enhancing Multi-Agent Collaborative Decision-Making via ACH-Inspired Structured Reasoning

16 Aug 2025

...

254

15 Aug 2025

Every 28 Days the AI Dreams of Soft Skin and Burning Stars: Scaffolding AI Agents with Hormones and Emotions

Leigh Levinson

Christopher J. Agostino

15 Aug 2025

EffiEval: Efficient and Generalizable Model Evaluation via Capability Coverage Maximization

13 Aug 2025

Amazon Nova AI Challenge -- Trusted AI: Advancing secure, AI-assisted software development

...

Shankar Ananthakrishna

113

13 Aug 2025

Slow Tuning and Low-Entropy Masking for Safe Chain-of-Thought Distillation

123

13 Aug 2025

AgriGPT: a Large Language Model Ecosystem for Agriculture

...

222

12 Aug 2025

SinLlama -- A Large Language Model for SinhalaMoratuwa Engineering Research Conference (MERCon), 2025

284

12 Aug 2025

TiMoE: Time-Aware Mixture of Language Experts

143

12 Aug 2025

Progressive Depth Up-scaling via Optimal Transport

Mingzi Cao

Xi Wang

Nikolaos Aletras

11 Aug 2025

OverFill: Two-Stage Models for Efficient Language Model Decoding

Woojeong Kim

Junxiong Wang

Jing Nathan Yan

Mohamed S. Abdelfattah

Alexander M Rush

108

11 Aug 2025

ThinkTuning: Instilling Cognitive Reflections without Distillation

204

11 Aug 2025

BharatBBQ: A Multilingual Bias Benchmark for Question Answering in the Indian Context

Aditya Tomar

Nihar Ranjan Sahoo

P. Bhattacharyya

123

09 Aug 2025

AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

235

09 Aug 2025

Rethinking 1-bit Optimization Leveraging Pre-trained Large Language Models

122

09 Aug 2025

Train It and Forget It: Merge Lists are Unnecessary for BPE Inference in Language Models

Tomohiro Sawada

Kartik Goyal

MoMe

102

08 Aug 2025

Pruning Large Language Models by Identifying and Preserving Functional Networks

155

07 Aug 2025

Align, Don't Divide: Revisiting the LoRA Architecture in Multi-Task Learning

07 Aug 2025

MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs

121

07 Aug 2025

Cross-LoRA: A Data-Free LoRA Transfer Framework across Heterogeneous LLMs

120

07 Aug 2025

IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

277

06 Aug 2025

Share Your Attention: Transformer Weight Sharing via Matrix-based Dictionary Learning

Magauiya Zhussip

Dmitriy Shopkhoev

Ammar Ali

Stamatios Lefkimmiatis

109

06 Aug 2025

FlexQ: Efficient Post-training INT6 Quantization for LLM Serving via Algorithm-System Co-Design

128

06 Aug 2025

Tensorized Clustered LoRA Merging for Multi-Task Interference

182

06 Aug 2025

RCP-Merging: Merging Long Chain-of-Thought Models with Domain-Specific Models by Considering Reasoning Capability as Prior

173

05 Aug 2025

Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models

Zhengwu Liu

Ngai Wong

118

05 Aug 2025

RegMean++: Enhancing Effectiveness and Generalization of Regression Mean for Model Merging

283

05 Aug 2025

Trainable Dynamic Mask Sparse Attention

354

04 Aug 2025