v1v2v3 (latest)

Measuring Massive Multitask Language Understanding

International Conference on Learning Representations (ICLR), 2020

7 September 2020

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "Measuring Massive Multitask Language Understanding"

50 / 4,480 papers shown

FedCoT: Communication-Efficient Federated Reasoning Enhancement for Large Language Models

132

07 Aug 2025

R-Zero: Self-Evolving Reasoning LLM from Zero Data

218

07 Aug 2025

IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

275

06 Aug 2025

Share Your Attention: Transformer Weight Sharing via Matrix-based Dictionary Learning

Magauiya Zhussip

Dmitriy Shopkhoev

Ammar Ali

Stamatios Lefkimmiatis

104

06 Aug 2025

Large Language Model's Multi-Capability Alignment in Biomedical Domain

127

06 Aug 2025

GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay

135

06 Aug 2025

ReasoningGuard: Safeguarding Large Reasoning Models with Inference-time Safety Aha Moments

121

06 Aug 2025

Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization

208

06 Aug 2025

Large Language Models Reasoning Abilities Under Non-Ideal Conditions After RL-Fine-Tuning

112

06 Aug 2025

ConfAgents: A Conformal-Guided Multi-Agent Framework for Cost-Efficient Medical Diagnosis

105

06 Aug 2025

Unveiling Over-Memorization in Finetuning LLMs for Reasoning Tasks

196

06 Aug 2025

Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning in LLMs

370

05 Aug 2025

A Comparative Study of Neurosymbolic AI Approaches to Interpretable Logical Reasoning

Michael K. Chen

NAI ELM LRM

129

05 Aug 2025

Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models

Zhengwu Liu

Ngai Wong

106

05 Aug 2025

RegMean++: Enhancing Effectiveness and Generalization of Regression Mean for Model Merging

274

05 Aug 2025

MoKA: Mixture of Kronecker Adapters

Mohammadreza Sadeghi

Mahsa Ghazvini Nejad

MirHamed Jafarzadeh Asl

05 Aug 2025

Who is a Better Player: LLM against LLM

...

137

05 Aug 2025

Test Set Quality in Multilingual LLM Evaluation

Kranti Chalamalasetti

Gabriel Bernier-Colborne

Yvan Gauthier

Sowmya Vajjala

ELM

151

04 Aug 2025

FPEdit: Robust LLM Fingerprinting through Localized Parameter Editing

254

04 Aug 2025

PentestJudge: Judging Agent Behavior Against Operational Requirements

135

04 Aug 2025

ProCut: LLM Prompt Compression via Attribution Estimation

171

04 Aug 2025

When Truth Is Overridden: Uncovering the Internal Origins of Sycophancy in Large Language Models

436

04 Aug 2025

The Architecture of Trust: A Framework for AI-Augmented Real Estate Valuation in the Era of Structured Data

172

04 Aug 2025

GrandJury: A Collaborative Machine Learning Model Evaluation Protocol for Dynamic Quality Rubrics

Arthur Cho

ALM AILaw ELM

134

04 Aug 2025

Trainable Dynamic Mask Sparse Attention

332

04 Aug 2025

Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction

160

04 Aug 2025

Enhancing Math Reasoning in Small-sized LLMs via Preview Difficulty-Aware Intervention

Xinhan Di

JoyJiaoW

LRM

107

03 Aug 2025

ROVER: Recursive Reasoning Over Videos with Vision-Language Models for Embodied Tasks

159

03 Aug 2025

Quantum-RAG and PunGPT2: Advancing Low-Resource Language Generation and Retrieval for the Punjabi Language

Jaskaranjeet Singh

Rakesh Thakur

174

03 Aug 2025

Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications

...

194

01 Aug 2025

MELAC: Massive Evaluation of Large Language Models with Alignment of Culture in Persian Language

Farhan Farsi

Farnaz Aghababaloo

Shahriar Shariati Motlagh

Parsa Ghofrani

MohammadAli SadraeiJavaheri

...

Amirhossein Shabani

Farbod Bijary

Ghazal Zamaninejad

Amirmohammad Salehoof

Saeedeh Momtazi

ELM

222

01 Aug 2025

Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models

288

01 Aug 2025

UAV-ON: A Benchmark for Open-World Object Goal Navigation with Aerial Agents

272

01 Aug 2025

Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models

155

01 Aug 2025

Llama-3.1-FoundationAI-SecurityLLM-8B-Instruct Technical Report

...

180

01 Aug 2025

Calibrated Language Models and How to Find Them with Label Smoothing

J. Huang

Peng Lu

Qiuhao Zeng

236

01 Aug 2025

Lucy: edgerunning agentic web search on mobile with machine generated task vectors

118

01 Aug 2025

LLMs Can Covertly Sandbag on Capability Evaluations Against Chain-of-Thought Monitoring

445

31 Jul 2025

Counterfactual Evaluation for Blind Attack Detection in LLM-based Evaluation Systems

132

31 Jul 2025

Learning Like Humans: Resource-Efficient Federated Fine-Tuning through Cognitive Developmental Stages

184

31 Jul 2025

Cascaded Information Disclosure for Generalized Evaluation of Problem Solving Capabilities

189

31 Jul 2025

TextQuests: How Good are LLMs at Text-Based Video Games?

202

31 Jul 2025

EMA Without the Lag: Bias-Corrected Iterate Averaging Schemes

Adam Block

Cyril Zhang

157

31 Jul 2025

DynaSwarm: Dynamically Graph Structure Selection for LLM-based Multi-agent System

Hui Yi Leong

Yuqing Wu

168

31 Jul 2025

CUS-QA: Local-Knowledge-Oriented Open-Ended Question Answering Dataset

Jindrich Libovický

Jindřich Helcl

Andrei-Alexandru Manea

Gianluca Vico

176

30 Jul 2025

BALSAM: A Platform for Benchmarking Arabic Large Language Models

...

218

30 Jul 2025

Where to show Demos in Your Prompt: A Positional Bias of In-Context Learning

Kwesi Cobbina

Tianyi Zhou

123

30 Jul 2025

Uncovering the Fragility of Trustworthy LLMs through Chinese Textual Ambiguity

154

30 Jul 2025

Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead

165

30 Jul 2025

League of LLMs: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models

Xiaofeng Wang

Baosheng Wang

ELM

180

30 Jul 2025