v1v2v3 (latest)

Measuring Massive Multitask Language Understanding

International Conference on Learning Representations (ICLR), 2020

7 September 2020

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "Measuring Massive Multitask Language Understanding"

50 / 4,486 papers shown

SciAgent: A Unified Multi-Agent System for Generalistic Scientific ReasoningMexican International Conference on Artificial Intelligence (MICAI), 2025

...

LLMAG LM&Ro LRM AI4CE

754

11 Nov 2025

Alignment-Aware Quantization for LLM Safety

112

11 Nov 2025

Training Language Models to Explain Their Own Computations

236

11 Nov 2025

Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs

625

10 Nov 2025

RedOne 2.0: Rethinking Domain-specific LLM Post-Training in Social Networking Services

...

205

10 Nov 2025

Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

279

10 Nov 2025

Selecting Auxiliary Data via Neural Tangent Kernels for Low-Resource Domains

133

10 Nov 2025

P3-LLM: An Integrated NPU-PIM Accelerator for LLM Inference Using Hybrid Numerical Formats

Mohamed S. Abdelfattah

228

10 Nov 2025

MobileLLM-Pro Technical Report

...

Raghuraman Krishnamoorthi

Adithya Sagar

143

10 Nov 2025

MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

...

379

10 Nov 2025

Importance-Aware Data Selection for Efficient LLM Instruction Tuning

386

10 Nov 2025

Rethinking Retrieval-Augmented Generation for Medicine: A Large-Scale, Systematic Expert Evaluation and Practical Insights

Hyunjae Kim

Jiwoong Sohn

Aidan Gilson

Nicholas Cochran-Caggiano

...

359

10 Nov 2025

Revisiting NLI: Towards Cost-Effective and Human-Aligned Metrics for Evaluating LLMs in Question Answering

Sai Shridhar Balamurali

Lu Cheng

124

10 Nov 2025

More Agents Helps but Adversarial Robustness Gap Persists

151

10 Nov 2025

EduGuardBench: A Holistic Benchmark for Evaluating the Pedagogical Fidelity and Adversarial Safety of LLMs as Simulated Teachers

163

10 Nov 2025

Better Datasets Start From RefineLab: Automatic Optimization for High-Quality Dataset Refinement

100

09 Nov 2025

Mixtures of SubExperts for Large Language Continual Learning

Haeyong Kang

CLL KELM MoE

214

09 Nov 2025

Towards Resource-Efficient Multimodal Intelligence: Learned Routing among Specialized Expert Models

Mayank Saini

Arit Kumar Bishwas

MoE

123

09 Nov 2025

SPA: Achieving Consensus in LLM Alignment via Self-Priority Optimization

Yue Huang

Xiangqi Wang

Xiangliang Zhang

133

09 Nov 2025

MONICA: Real-Time Monitoring and Calibration of Chain-of-Thought Sycophancy in Large Reasoning Models

139

09 Nov 2025

LPFQA: A Long-Tail Professional Forum-based Benchmark for LLM Evaluation

...

584

09 Nov 2025

Chain-of-Thought as a Lens: Evaluating Structured Reasoning Alignment between Human Preferences and Large Language Models

121

09 Nov 2025

In-depth Analysis on Caching and Pre-fetching in Mixture of Experts Offloading

103

08 Nov 2025

DRAGON: Guard LLM Unlearning in Context via Negative Detection and ReasoningConference on Empirical Methods in Natural Language Processing (EMNLP), 2025

356

08 Nov 2025

MuonAll: Muon Variant for Efficient Finetuning of Large Language Models

138

08 Nov 2025

Leak@

k

: Unlearning Does Not Make LLMs Forget Under Probabilistic Decoding

362

07 Nov 2025

Steering Language Models with Weight Arithmetic

Constanza Fierro

Fabien Roger

MoMe LLMSV

532

07 Nov 2025

Iterative Layer-wise Distillation for Efficient Compression of Large Language Models

Grigory Kovalev

M. Tikhomirov

108

07 Nov 2025

Characterizing and Understanding Energy Footprint and Efficiency of Small Language Model on EdgesIEEE International Conference on Mobile Adhoc and Sensor Systems (MASS), 2025

145

07 Nov 2025

Motif 2 12.7B technical report

...

104

07 Nov 2025

Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at ScaleAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025

Prithviraj Ammanabrolu

344

07 Nov 2025

If I Could Turn Back Time: Temporal Reframing as a Historical Reasoning Task for LLMs

Lars Bungum

Charles Yijia Huang

Abeer Kashar

136

06 Nov 2025

PuzzleMoE: Efficient Compression of Large Mixture-of-Experts Models via Sparse Expert Merging and Bit-packed inference

161

06 Nov 2025

Reusing Pre-Training Data at Test Time is a Compute Multiplier

106

06 Nov 2025

LLM-as-a-Judge is Bad, Based on AI Attempting the Exam Qualifying for the Member of the Polish National Board of Appeal

Aleksander Smywiński-Pohl

Mateusz Szymański

Witold Wydmański

ELM

104

06 Nov 2025

An MLCommons Scientific Benchmarks Ontology

Shivaram Venkataraman

06 Nov 2025

Thinking with Video: Video Generation as a Promising Multimodal Reasoning Paradigm

...

351

06 Nov 2025

DartQuant: Efficient Rotational Distribution Calibration for LLM Quantization

365

06 Nov 2025

From Prompts to Power: Measuring the Energy Footprint of LLM Inference

Francisco Caravaca

Ángel Cuevas

R. Cuevas

119

05 Nov 2025

LiveTradeBench: Seeking Real-World Alpha with Large Language Models

238

05 Nov 2025

BengaliMoralBench: A Benchmark for Auditing Moral Reasoning in Large Language Models within Bengali Language and Culture

Shahriyar Zaman Ridoy

Azmine Toushik Wasi

Koushik Ahamed Tonmoy

LRM

177

05 Nov 2025

Agent-Omni: Test-Time Multimodal Reasoning via Model Coordination for Understanding Anything

258

04 Nov 2025

Cache Mechanism for Agent RAG Systems

135

04 Nov 2025

TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular DataConference on Empirical Methods in Natural Language Processing (EMNLP), 2025

392

04 Nov 2025

Epidemiology of Large Language Models: A Benchmark for Observational Distribution Knowledge

193

04 Nov 2025

LTD-Bench: Evaluating Large Language Models by Letting Them Draw

208

04 Nov 2025

DecompSR: A dataset for decomposed analyses of compositional multihop spatial reasoning

285

04 Nov 2025

Data-Efficient Adaptation and a Novel Evaluation Method for Aspect-based Sentiment Analysis

118

04 Nov 2025

CGES: Confidence-Guided Early Stopping for Efficient and Accurate Self-Consistency

160

04 Nov 2025

A Detailed Study on LLM Biases Concerning Corporate Social Responsibility and Green Supply Chains

127

03 Nov 2025