v1v2v3 (latest)

Measuring Massive Multitask Language Understanding

International Conference on Learning Representations (ICLR), 2020

7 September 2020

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "Measuring Massive Multitask Language Understanding"

50 / 4,486 papers shown

Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead

169

30 Jul 2025

Where to show Demos in Your Prompt: A Positional Bias of In-Context Learning

Kwesi Cobbina

Tianyi Zhou

132

30 Jul 2025

CUS-QA: Local-Knowledge-Oriented Open-Ended Question Answering Dataset

Jindrich Libovický

Jindřich Helcl

Andrei-Alexandru Manea

Gianluca Vico

191

30 Jul 2025

BALSAM: A Platform for Benchmarking Arabic Large Language Models

...

224

30 Jul 2025

AgriEval: A Comprehensive Chinese Agricultural Benchmark for Large Language Models

169

29 Jul 2025

Improving Task Diversity in Label Efficient Supervised Finetuning of LLMs

204

29 Jul 2025

Strategic Deflection: Defending LLMs from Logit Manipulation

Amal El Fallah Seghrouchni

AAML LLMSV

157

29 Jul 2025

Training language models to be warm and empathetic makes them less reliable and more sycophantic

Lujain Ibrahim

Franziska Sofia Hafner

Luc Rocher

231

29 Jul 2025

Evaluation and Benchmarking of LLM Agents: A Survey

421

29 Jul 2025

MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions

179

29 Jul 2025

ChemDFM-R: A Chemical Reasoning LLM Enhanced with Atomized Chemical Knowledge

...

175

29 Jul 2025

Dissecting Persona-Driven Reasoning in Language Models via Activation Patching

Ansh Poonia

Maeghal Jain

227

28 Jul 2025

Kimi K2: Open Agentic Intelligence

...

188

28 Jul 2025

LoRA-PAR: A Flexible Dual-System LoRA Partitioning Approach to Efficient LLM Fine-Tuning

255

28 Jul 2025

Hot-Swap MarkBoard: An Efficient Black-box Watermarking Approach for Large-scale Model Distribution

267

28 Jul 2025

MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation

Adrien Bazoge

ELM

139

28 Jul 2025

ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios

...

128

27 Jul 2025

MaPPO: Maximum a Posteriori Preference Optimization with Prior Knowledge

Christopher G. Brinton

298

27 Jul 2025

SDD: Self-Degraded Defense against Malicious Fine-tuningAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

167

27 Jul 2025

RAG in the Wild: On the (In)effectiveness of LLMs with Mixture-of-Knowledge Retrieval Augmentation

144

26 Jul 2025

A Survey on Generative Model Unlearning: Fundamentals, Taxonomy, Evaluation, and Future Direction

274

26 Jul 2025

Uncovering Cross-Linguistic Disparities in LLMs using Sparse Autoencoders

Richmond Sin Jing Xuan

Jalil Huseynov

Yang Zhang

145

25 Jul 2025

Mitigating Geospatial Knowledge Hallucination in Large Language Models: Benchmarking and Dynamic Factuality Aligning

172

25 Jul 2025

Towards Inclusive NLP: Assessing Compressed Multilingual Transformers across Diverse Language Benchmarks

Maitha Alshehhi

Ahmed Sharshar

Mohsen Guizani

141

25 Jul 2025

How Much Do Large Language Model Cheat on Evaluation? Benchmarking Overestimation under the One-Time-Pad-Based Framework

210

25 Jul 2025

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

300

25 Jul 2025

CodeMixBench: Evaluating Code-Mixing Capabilities of LLMs Across 18 Languages

Yilun Yang

Yekun Chai

144

24 Jul 2025

Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation

355

24 Jul 2025

Decoupling Knowledge and Reasoning in LLMs: An Exploration Using Cognitive Dual-System Theory

Mutian Yang

Jiandong Gao

Ji Wu

191

24 Jul 2025

CLEAR: Error Analysis via LLM-as-a-Judge Made Easy

Michal Shmueli-Scheuer

ELM

210

24 Jul 2025

Technical Report of TeleChat2, TeleChat2.5 and T1

...

429

24 Jul 2025

StyleAdaptedLM: Enhancing Instruction Following Models with Efficient Stylistic Transfer

116

24 Jul 2025

GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs

189

24 Jul 2025

NeuralDB: Scaling Knowledge Editing in LLMs to 100,000 Facts with Neural KV Database

179

24 Jul 2025

SCOPE: Stochastic and Counterbiased Option Placement for Evaluating Large Language Models

Wonjun Jeong

Dongseok Kim

Taegkeun Whangbo

234

24 Jul 2025

Reasoning Beyond the Obvious: Evaluating Divergent and Convergent Thinking in LLMs for Financial Scenarios

Zhuang Qiang Bok

Watson Wei Khong Chua

AIFin

149

24 Jul 2025

Prune&Comp: Free Lunch for Layer-Pruned LLMs via Iterative Pruning with Magnitude Compensation

153

24 Jul 2025

A Comprehensive Evaluation on Quantization Techniques for Large Language Models

Yutong Liu

Cairong Zhao

Guosheng Hu

224

23 Jul 2025

The Geometry of Harmfulness in LLMs through Subconcept Probing

McNair Shah

Saleena Angeline

Adhitya Rajendra Kumar

239

23 Jul 2025

Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models

389

23 Jul 2025

MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs

333

23 Jul 2025

WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training

264

23 Jul 2025

Awakening LLMs' Reasoning Potential: A Fine-Grained Pipeline to Evaluate and Mitigate Vague Perception

385

22 Jul 2025

The Ever-Evolving Science Exam

...

347

22 Jul 2025

A Unifying Scheme for Extractive Content Selection Tasks

155

22 Jul 2025

Depth Gives a False Sense of Privacy: LLM Internal States Inversion

174

22 Jul 2025

MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

340

22 Jul 2025

DialogueForge: LLM Simulation of Human-Chatbot Dialogue

108

21 Jul 2025

Metric assessment protocol in the context of answer fluctuation on MCQ tasks

137

21 Jul 2025

Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

187

21 Jul 2025