v1v2v3 (latest)

Measuring Massive Multitask Language Understanding

International Conference on Learning Representations (ICLR), 2020

7 September 2020

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "Measuring Massive Multitask Language Understanding"

50 / 4,483 papers shown

AgentCDM: Enhancing Multi-Agent Collaborative Decision-Making via ACH-Inspired Structured Reasoning

16 Aug 2025

QuarkMed Medical Foundation Model Technical Report

...

174

16 Aug 2025

Data Mixing Optimization for Supervised Fine-Tuning of Large Language Models

Yuan Li

Zhengzhong Liu

Eric P. Xing

139

16 Aug 2025

Mitigating Jailbreaks with Intent-Aware LLMs

141

16 Aug 2025

Mind the Generation Process: Fine-Grained Confidence Estimation During LLM Generation

...

113

16 Aug 2025

Personalized Distractor Generation via MCTS-Guided Reasoning Reconstruction

311

15 Aug 2025

When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs

128

15 Aug 2025

Feedback Indicators: The Alignment between Llama and a Teacher in Language Learning

15 Aug 2025

Every 28 Days the AI Dreams of Soft Skin and Burning Stars: Scaffolding AI Agents with Hormones and Emotions

Leigh Levinson

Christopher J. Agostino

15 Aug 2025

Dynamic Quality-Latency Aware Routing for LLM Inference in Wireless Edge-Device Networks

15 Aug 2025

Speciesism in AI: Evaluating Discrimination Against Animals in Large Language Models

148

15 Aug 2025

Inclusion Arena: An Open Platform for Evaluating Large Foundation Models with Real-World Apps

147

15 Aug 2025

MSRS: Adaptive Multi-Subspace Representation Steering for Attribute Alignment in Large Language Models

393

14 Aug 2025

BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining

...

116

14 Aug 2025

Thinking Inside the Mask: In-Place Prompting in Diffusion LLMs

181

14 Aug 2025

Robot Policy Evaluation for Sim-to-Real Transfer: A Benchmarking Perspective

136

14 Aug 2025

Methodological Framework for Quantifying Semantic Test Coverage in RAG Systems

13 Aug 2025

EffiEval: Efficient and Generalizable Model Evaluation via Capability Coverage Maximization

13 Aug 2025

Benchmarking the Medical Understanding and Reasoning of Large Language Models in Arabic Healthcare Tasks

Nouar Aldahoul

Yasir Zaki

LM&MA AI4MH ELM

147

13 Aug 2025

NeuronTune: Fine-Grained Neuron Modulation for Balanced Safety-Utility Alignment in LLMs

145

13 Aug 2025

Amazon Nova AI Challenge -- Trusted AI: Advancing secure, AI-assisted software development

...

Shankar Ananthakrishna

113

13 Aug 2025

Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization

208

13 Aug 2025

Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference

228

13 Aug 2025

mSCoRe: a

M

ultilingual and Scalable Benchmark for

S

kill-based

Co

mmonsense

Re

190

13 Aug 2025

IROTE: Human-like Traits Elicitation of Large Language Model via In-Context Self-Reflective Optimization

173

12 Aug 2025

Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments

...

176

12 Aug 2025

BiasGym: Fantastic LLM Biases and How to Find (and Remove) Them

219

12 Aug 2025

Classifier Language Models: Unifying Sparse Finetuning and Adaptive Tokenization for Specialized Classification Tasks

Adit Krishnan

Chu Wang

Chris Kong

12 Aug 2025

Scaling Up Active Testing to Large Language Models

Gabrielle Berrada

Jannik Kossen

Muhammed Razzak

Freddie Bickford-Smith

Y. Gal

Tom Rainforth

ALM

157

12 Aug 2025

AgriGPT: a Large Language Model Ecosystem for Agriculture

...

221

12 Aug 2025

SinLlama -- A Large Language Model for SinhalaMoratuwa Engineering Research Conference (MERCon), 2025

284

12 Aug 2025

InternBootcamp Technical Report: Boosting LLM Reasoning with Verifiable Task Scaling

...

125

12 Aug 2025

A Survey on Training-free Alignment of Large Language Models

443

12 Aug 2025

Resurrecting the Salmon: Rethinking Mechanistic Interpretability with Domain-Specific Sparse Autoencoders

Charles OÑeill

Mudith Jayasekara

Max Kirkby

101

12 Aug 2025

TiMoE: Time-Aware Mixture of Language Experts

140

12 Aug 2025

Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

...

120

11 Aug 2025

VISOR: Visual Input-based Steering for Output Redirection in Vision-Language Models

Mansi Phute

Ravikumar Balakrishnan

LLMSV

11 Aug 2025

Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts

...

137

11 Aug 2025

Evaluating Large Language Models as Expert Annotators

150

11 Aug 2025

OverFill: Two-Stage Models for Efficient Language Model Decoding

Woojeong Kim

Junxiong Wang

Jing Nathan Yan

Mohamed S. Abdelfattah

Alexander M Rush

108

11 Aug 2025

VGGSounder: Audio-Visual Evaluations for Foundation Models

Daniil Zverev

Thaddäus Wiedemer

Christian Schroeder de Witt

235

11 Aug 2025

Capabilities of GPT-5 on Multimodal Medical Reasoning

151

11 Aug 2025

Can You Trick the Grader? Adversarial Persuasion of LLM Judges

121

11 Aug 2025

HealthBranches: Synthesizing Clinically-Grounded Question Answering Datasets via Decision Pathways

133

10 Aug 2025

Benchmarking for Domain-Specific LLMs: A Case Study on Academia and Beyond

242

10 Aug 2025

Towards Safer AI Moderation: Evaluating LLM Moderators Through a Unified Benchmark Dataset and Advocating a Human-First Approach

107

09 Aug 2025

LLM Unlearning Without an Expert Curated Dataset

255

08 Aug 2025

Train It and Forget It: Merge Lists are Unnecessary for BPE Inference in Language Models

Tomohiro Sawada

Kartik Goyal

MoMe

102

08 Aug 2025

gpt-oss-120b & gpt-oss-20b Model Card

...

131

268

08 Aug 2025

R-Zero: Self-Evolving Reasoning LLM from Zero Data

230

07 Aug 2025