Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them

Annual Meeting of the Association for Computational Linguistics (ACL), 2022

17 October 2022

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (554★)

Papers citing "Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them"

50 / 1,103 papers shown

LLM Prompt Duel Optimizer: Efficient Label-Free Prompt Optimization

205

10 Apr 2026

Efficient PRM Training Data Synthesis via Formal Verification

Ryo Kamoi

Yusen Zhang

Nan Zhang

Sarkar Snigdha Sarathi Das

Rui Zhang

Wenpeng Yin

Rui Zhang

LRM

359

10 Apr 2026

Attention-Aligned Reasoning for Large Language Models

204

30 Mar 2026

PATCH: Learnable Tile-level Hybrid Sparsity for LLMs

Younes Hourri

Mohammad Mozaffari

M. Dehnavi

261

24 Dec 2025

ADAPT: Learning Task Mixtures for Budget-Constrained Instruction Tuning

178

04 Dec 2025

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

227

04 Dec 2025

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on Cartographic Map Understanding

...

221

03 Dec 2025

DETAIL Matters: Measuring the Impact of Prompt Specificity on Reasoning in Large Language Models

Olivia Kim

LRM

110

01 Dec 2025

Multi-chain Graph Refinement and Selection for Reliable Reasoning in Large Language Models

260

28 Nov 2025

Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

333

28 Nov 2025

A Rosetta Stone for AI Benchmarks

A. Ho

Jean-Stanislas Denain

329

28 Nov 2025

Revisiting Generalization Across Difficulty Levels: It's Not So Easy

265

26 Nov 2025

Structured Prompts Improve Evaluation of Language Models

Asad Aali

Muhammad Ahmed Mohsin

...

341

25 Nov 2025

More Bias, Less Bias: BiasPrompting for Enhanced Multiple-Choice Question Answering

424

25 Nov 2025

A Unified Evaluation-Instructed Framework for Query-Dependent Prompt Optimization

201

25 Nov 2025

CafeQ: Calibration-free Quantization via Learned Transformations and Adaptive Rounding

208

24 Nov 2025

Orchestrating Dual-Boundaries: An Arithmetic Intensity Inspired Acceleration Framework for Diffusion Language Models

151

24 Nov 2025

Xmodel-2.5: 1.3B Data-Efficient Reasoning SLM

424

23 Nov 2025

WavefrontDiffusion: Dynamic Decoding Schedule for Improved Reasoning

153

22 Nov 2025

ELPO: Ensemble Learning Based Prompt Optimization for Large Language Models

...

143

20 Nov 2025

Multimodal Evaluation of Russian-language Architectures

...

427

19 Nov 2025

Bootstrapping LLMs via Preference-Based Policy Optimization

Chen Jia

OffRL

424

17 Nov 2025

Uncertainty-Guided Checkpoint Selection for Reinforcement Finetuning of Large Language Models

194

13 Nov 2025

AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment

Ruibo Deng

Duanyu Feng

Wenqiang Lei

240

12 Nov 2025

LoRA on the Go: Instance-level Dynamic LoRA Selection and Merging

690

10 Nov 2025

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

...

259

10 Nov 2025

C3PO: Optimized Large Language Model Cascades with Probabilistic Cost Constraints for Reasoning

247

10 Nov 2025

Chain-of-Thought as a Lens: Evaluating Structured Reasoning Alignment between Human Preferences and Large Language Models

223

09 Nov 2025

Mixtures of SubExperts for Large Language Continual Learning

Haeyong Kang

CLL KELM MoE

269

09 Nov 2025

Effectiveness of Chain-of-Thought in Distilling Reasoning Capability from Large Language Models

243

07 Nov 2025

Motif 2 12.7B technical report

...

159

07 Nov 2025

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

...

403

06 Nov 2025

Watermarking Discrete Diffusion Language Models

218

03 Nov 2025

FEval-TTC: Fair Evaluation Protocol for Test-Time Compute

128

03 Nov 2025

The Ouroboros of Benchmarking: Reasoning Evaluation in an Era of Saturation

İbrahim Ethem Deveci

Duygu Ataman

ReLM ALM ELM LRM

277

03 Nov 2025

LongCat-Flash-Omni Technical Report

...

665

31 Oct 2025

Consistency Training Helps Stop Sycophancy and Jailbreaks

Alex Irpan

Alexander Matt Turner

Mark Kurzeja

David Elson

Rohin Shah

263

31 Oct 2025

Kimi Linear: An Expressive, Efficient Attention Architecture

...

180

30 Oct 2025

Lean4Physics: Comprehensive Reasoning Framework for College-level Physics in Lean4

175

30 Oct 2025

Zero Reinforcement Learning Towards General Domains

189

29 Oct 2025

Parallel Loop Transformer for Efficient Test-Time Computation Scaling

...

181

28 Oct 2025

APTBench: Benchmarking Agentic Potential of Base LLMs During Pre-Training

160

28 Oct 2025

RiddleBench: A New Generative Reasoning Benchmark for LLMs

311

28 Oct 2025

A Survey on LLM Mid-Training

327

27 Oct 2025

Multi-Agent Evolve: LLM Self-Improve through Co-evolution

363

27 Oct 2025

PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection

595

27 Oct 2025

Edit Less, Achieve More: Dynamic Sparse Neuron Masking for Lifelong Knowledge Editing in LLMs

430

25 Oct 2025

When Fewer Layers Break More Chains: Layer Pruning Harms Test-Time Scaling in LLMs

159

25 Oct 2025

Risk Management for Mitigating Benchmark Failure Modes: BenchRisk

...

186

24 Oct 2025

Chain of Execution Supervision Promotes General Reasoning in Large Language Models

154

24 Oct 2025