Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge

14 March 2018

Oyvind Tafjord

Papers citing "Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge"

50 / 1,881 papers shown

Title
PATCH: Learnable Tile-level Hybrid Sparsity for LLMs Younes Hourri Mohammad Mozaffari M. Dehnavi 148 0 0 24 Dec 2025
Decoupling the "What" and "Where" With Polar Coordinate Positional Embeddings Anand Gopalakrishnan Róbert Csordás Jürgen Schmidhuber M. C. Mozer 92 1 0 24 Dec 2025
Stochastic activations Maria Lomeli Matthijs Douze Gergely Szilvasy Loic Cabannes Jade Copet Sainbayar Sukhbaatar Jason Weston Gabriel Synnaeve Pierre-Emmanuel Mazaré Hervé Jégou LLMSV 92 0 0 24 Dec 2025
Bias Testing and Mitigation in Black Box LLMs using Metamorphic Relations Sina Salimian Gias Uddin Sumon Biswas Henry Leung 16 0 0 29 Nov 2025
PerfMamba: Performance Analysis and Pruning of Selective State Space Models Abdullah Al Asif Mobina Kashaniyan Sixing Yu J. P. Muñoz Ali Jannesari Mamba 250 0 0 28 Nov 2025
A Rosetta Stone for AI Benchmarks A. Ho Jean-Stanislas Denain David Atanasov Samuel Albanie Rohin Shah ELM 156 0 0 28 Nov 2025
Ghosting Your LLM: Without The Knowledge of Your Gradient and Data Abeer Matar A. Almalky Ziyan Wang Mohaiminul Al Nahian Li Yang Adnan Siraj Rakin AAML 132 0 0 27 Nov 2025
CacheTrap: Injecting Trojans in LLMs without Leaving any Traces in Inputs or Weights Mohaiminul Al Nahian Abeer Matar A. Almalky Gamana Aragonda Ranyang Zhou Sabbir Ahmed Dmitry Ponomarev Li Yang Shaahin Angizi Adnan Siraj Rakin 12 0 0 27 Nov 2025
SingleQuant: Efficient Quantization of Large Language Models in a Single Pass Jinying Xiao Bin Ji Shasha Li Xiaodong Liu Ma Jun Ye Zhong Wei Li Xuan Xie Qingbo Wu Jie Yu MQ 36 0 0 27 Nov 2025
IntAttention: A Fully Integer Attention Pipeline for Efficient Edge Inference Wanli Zhong Haibo Feng Zirui Zhou Hanyang Peng Shiqi Yu MQ 194 0 0 26 Nov 2025
Revisiting Generalization Across Difficulty Levels: It's Not So Easy Yeganeh Kordi Nihal V. Nayak Max Zuo Ilana Nguyen Stephen H. Bach 104 0 0 26 Nov 2025
Improving Score Reliability of Multiple Choice Benchmarks with Consistency Evaluation and Altered Answer Choices Paulo Cavalin Cassia Sanctos Marcelo Grave Claudio S. Pinhanez Yago Primerano 8 0 0 26 Nov 2025
Subjective Depth and Timescale Transformers: Learning Where and When to Compute Frederico Wieser Martin A Benfeghoul Haitham Bou-Ammar Jun Wang Zafeirios Fountas 102 0 0 26 Nov 2025
Beyond URLs: Metadata Diversity and Position for Efficient LLM Pretraining Dongyang Fan Diba Hashemi Sai Praneeth Karimireddy Martin Jaggi 97 0 0 26 Nov 2025
Mosaic Pruning: A Hierarchical Framework for Generalizable Pruning of Mixture-of-Experts Models Wentao Hu Mingkuan Zhao Shuangyong Song Xiaoyan Zhu Xin Lai Jiayin Wang 91 1 0 25 Nov 2025
ROOT: Robust Orthogonalized Optimizer for Neural Network Training Wei He Kai Han Hang Zhou Hanting Chen Zhicheng Liu Xinghao Chen Yunhe Wang AAML 120 0 0 25 Nov 2025
Latent Collaboration in Multi-Agent Systems Jiaru Zou X. Yang Ruizhong Qiu Gaotang Li Katherine Tieu ... Yejin Choi Jingrui He James Zou Mengdi Wang Ling Yang LLMAG LRM AI4CE 744 0 0 25 Nov 2025
Mirror, Mirror on the Wall -- Which is the Best Model of Them All? Dina Sayed Heiko Schuldt 8 0 0 25 Nov 2025
BengaliFig: A Low-Resource Challenge for Figurative and Culturally Grounded Reasoning in Bengali Abdullah Al Sefat 120 0 0 25 Nov 2025
SSA: Sparse Sparse Attention by Aligning Full and Sparse Attention Outputs in Feature Space Zhenyi Shen Junru Lu Lin Gui Jiazheng Li Yulan He D. Yin Xing Sun 148 0 0 25 Nov 2025
BackdoorVLM: A Benchmark for Backdoor Attacks on Vision-Language Models Juncheng Li Y. Li Hanxun Huang Yunhao Chen Xin Wang Yixu Wang Xingjun Ma Yu-Gang Jiang MLLM AAML VLM 172 0 0 24 Nov 2025
CafeQ: Calibration-free Quantization via Learned Transformations and Adaptive Rounding Ziteng Sun Adrian Benton Samuel Kushnir Asher Trockman Vikas Singh Suhas Diggavi A. Suresh MQ 122 0 0 24 Nov 2025
Understanding and Mitigating Over-refusal for Large Language Models via Safety Representation Junbo Zhang Ran Chen Qianli Zhou Xinyang Deng Wen Jiang 145 1 0 24 Nov 2025
How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining Kairong Luo Zhenbo Sun Haodong Wen Xinyu Shi Jiarui Cui Chenyi Dang Kaifeng Lyu Wenguang Chen 139 1 0 24 Nov 2025
FastForward Pruning: Efficient LLM Pruning via Single-Step Reinforcement Learning Xin Yuan S. Li Jiateng Wei Chengrui Zhu Yanming Wu Qingpeng Li Jiajun Lv Xiaoke Lan Jun Chen Yong-Jin Liu OffRL 324 0 0 24 Nov 2025
ModHiFi: Identifying High Fidelity predictive components for Model Modification Dhruva Kashyap Chaitanya Murti Pranav K Nayak Tanay Narshana Chiranjib Bhattacharyya 108 0 0 24 Nov 2025
Findings of the BlackboxNLP 2025 Shared Task: Localizing Circuits and Causal Variables in Language Models Dana Arad Yonatan Belinkov Hanjie Chen Najoung Kim Hosein Mohebbi Aaron Mueller Gabriele Sarti Martin Tutek 36 0 0 23 Nov 2025
AnyExperts: On-Demand Expert Allocation for Multimodal Language Models with Mixture of Expert Yuting Gao Wang Lan Hengyuan Zhao Linjiang Huang Si Liu Q. Guo MoE 136 0 0 23 Nov 2025
Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM Yang Liu Xiaolong Zhong Ling Jiang LLMAG MU MoE LRM 336 0 0 23 Nov 2025
Blu-WERP (Web Extraction and Refinement Pipeline): A Scalable Pipeline for Preprocessing Large Language Model Datasets Gowtham Sai Rupesh Sanjay Kumar Saravanan Venkata Chaithanya VLM 177 0 0 22 Nov 2025
PoETa v2: Toward More Robust Evaluation of Large Language Models in PortugueseIEEE Access (IEEE Access), 2025 Thales Sales Almeida Ramon Pires Hugo Queiroz Abonizio Rodrigo Nogueira Hélio Pedrini 47 1 0 21 Nov 2025
R2Q: Towards Robust 2-Bit Large Language Models via Residual Refinement Quantization Jiayi Chen Jieqi Shi Jing Huo Chen Wu MQ 113 0 0 21 Nov 2025
E $^3$ -Pruner: Towards Efficient, Economical, and Effective Layer Pruning for Large Language Models Tao Yuan Haoli Bai Yinfei Pan Xuyang Cao Tianyu Zhang Lu Hou Ting Hu Xianzhi Yu VLM 167 0 0 21 Nov 2025
Layer-Wise High-Impact Parameter Ratio Optimization in Post-Training Quantization for Large Language Models Cuong Pham Hoang Anh Dung Cuong C. Nguyen Trung Le G. Carneiro Thanh-Toan Do MQ 113 0 0 21 Nov 2025
Adaptive Layer-Wise Transformations for Post-Training Quantization of Large Language Models Cuong Pham Hoang Anh Dung Cuong C. Nguyen Trung Le G. Carneiro Jianfei Cai Thanh-Toan Do MQ 114 0 0 21 Nov 2025
Incorporating Self-Rewriting into Large Language Model Reasoning Reinforcement Jiashu Yao Heyan Huang Shuang Zeng Chuwei Luo Wangjie You Jie Tang Qingsong Liu Yuhang Guo Yangyang Kang ReLM KELM 248 0 0 20 Nov 2025
AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser Ren Ma Jiantao Qiu Chao Xu Pei Chu Kaiwen Liu ... Wentao Zhang Zhongying Tu Wentao Zhang Dahua Lin Conghui He 92 0 0 20 Nov 2025
JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation Zhenyu Bi Gaurav Srivastava Yang Li Meng Lu Swastik Roy Morteza Ziyadi Xuan Wang ELM 236 0 0 20 Nov 2025
Breaking Expert Knowledge Limits: Self-Pruning for Large Language Models Haidong Kang Lihong Lin Enneng Yang Hongning Dai Hao Wang LRM 181 0 0 19 Nov 2025
Breaking the Bottleneck with DiffuApriel: High-Throughput Diffusion LMs with Mamba Backbone Vaibhav Singh Oleksiy Ostapenko Pierre-Andre Noel Torsten Scholak Mamba AI4CE 372 0 0 19 Nov 2025
Reasoning in Diffusion Large Language Models is Concentrated in Dynamic Confusion Zones Ranfei Chen Ming Chen Kaifei Wang DiffM AI4CE LRM 161 0 0 19 Nov 2025
HEAD-QA v2: Expanding a Healthcare Benchmark for Reasoning Alexis Correa-Guillén Carlos Gómez-Rodríguez David Vilares LRM 211 0 0 19 Nov 2025
Dynamic Nested Hierarchies: Pioneering Self-Evolution in Machine Learning Architectures for Lifelong Intelligence Akbar Anbar Jafari C. Ozcinar G. Anbarjafari AI4CE 64 1 0 18 Nov 2025
SLMQuant:Benchmarking Small Language Model Quantization for Practical Deployment Jiacheng Wang Yejun Zeng Jinyang Guo Yuqing Ma Aishan Liu Xianglong Liu MQ 253 1 0 17 Nov 2025
Quantifying and Mitigating Selection Bias in LLMs: A Transferable LoRA Fine-Tuning and Efficient Majority Voting Approach Blessed Guda Lawrence Francis Gabrial Zencha A. Carlee Joe-Wong Moise Busogi 16 0 0 17 Nov 2025
Learning from the Undesirable: Robust Adaptation of Language Models without Forgetting Yunhun Nam Jaehyung Kim Jongheon Jeong 92 0 0 17 Nov 2025
OTARo: Once Tuning for All Precisions toward Robust On-Device LLMs Shaoyuan Chen Zhixuan Chen Dawei Yang Zhihang Yuan Qiang Wu MQ 152 0 0 17 Nov 2025
Bootstrapping LLMs via Preference-Based Policy Optimization Chen Jia OffRL 226 0 0 17 Nov 2025
Donors and Recipients: On Asymmetric Transfer Across Tasks and Languages with Parameter-Efficient Fine-Tuning Kajetan Dymkiewicz Ivan Vulić Helen Yannakoudakis Eilam Shapira Roi Reichart Anna Korhonen 88 0 0 17 Nov 2025
AlignTree: Efficient Defense Against LLM Jailbreak Attacks Gil Goren Shahar Katz Lior Wolf AAML 177 0 0 15 Nov 2025