v1v2v3 (latest)

Measuring Massive Multitask Language Understanding

International Conference on Learning Representations (ICLR), 2020

7 September 2020

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "Measuring Massive Multitask Language Understanding"

50 / 4,486 papers shown

Foundational Models Defining a New Era in Vision: A Survey and Outlook

Muhammad Awais

Muzammal Naseer

Salman Khan

Rao Muhammad Anwer

Hisham Cholakkal

437

153

25 Jul 2023

ARB: Advanced Reasoning Benchmark for Large Language Models

237

25 Jul 2023

Evaluating Large Language Models for Radiology Natural Language Processing

...

577

25 Jul 2023

A Real-World WebAgent with Planning, Long Context Understanding, and Program SynthesisInternational Conference on Learning Representations (ICLR), 2023

Hiroki Furuta

581

319

24 Jul 2023

L-Eval: Instituting Standardized Evaluation for Long Context Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Lingpeng Kong

Xipeng Qiu

ELM ALM

470

205

20 Jul 2023

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill SetsInternational Conference on Learning Representations (ICLR), 2023

593

150

20 Jul 2023

SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language ModelsInternational Conference on Machine Learning (ICML), 2023

422

176

20 Jul 2023

Instruction-following Evaluation through Verbalizer Manipulation

Xiang Ren

320

20 Jul 2023

DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AIFindings (Findings), 2023

Kun Qian

Huan Wang

Silvio Savarese

Caiming Xiong

309

19 Jul 2023

CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility

...

Ji Zhang

Jingren Zhou

272

19 Jul 2023

Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

323

141

18 Jul 2023

Llama 2: Open Foundation and Fine-Tuned Chat Models

Louis Martin

...

Sharan Narang

Sergey Edunov

8.7K

15,551

18 Jul 2023

AlpaGasus: Training A Better Alpaca with Fewer Data

...

424

261

17 Jul 2023

COLLIE: Systematic Construction of Constrained Text Generation TasksInternational Conference on Learning Representations (ICLR), 2023

289

17 Jul 2023

Measuring Faithfulness in Chain-of-Thought Reasoning

...

248

313

17 Jul 2023

Assessing the Quality of Multiple-Choice Questions Using GPT-4 and Rule-Based MethodsEuropean Conference on Technology Enhanced Learning (EC-TEL), 2023

241

16 Jul 2023

Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical StudyInternational Conference on Language Resources and Evaluation (LREC), 2023

274

16 Jul 2023

Large Language Models as Superpositions of Cultural Perspectives

300

15 Jul 2023

Effective Prompt Extraction from Language Models

360

13 Jul 2023

A Comprehensive Overview of Large Language ModelsACM Transactions on Intelligent Systems and Technology (ACM TIST), 2023

Saeed Anwar

Muhammad Usman

898

1,229

12 Jul 2023

Instruction Mining: When Data Mining Meets Large Language Model Finetuning

Lichao Sun

127

12 Jul 2023

Empowering Cross-lingual Behavioral Testing of NLP Models with Typological FeaturesAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Ester Hlavnova

Sebastian Ruder

241

11 Jul 2023

OntoChatGPT Information System: Ontology-Driven Structured Prompts for ChatGPT Meta-Learning

O. Palagin

Vladislav Kaverinskiy

Anna Litvin

Kyrylo S. Malakhov

KELM

11 Jul 2023

Frontier AI Regulation: Managing Emerging Risks to Public Safety

...

Divya Siddarth

432

156

06 Jul 2023

A Survey on Evaluation of Large Language ModelsACM Transactions on Intelligent Systems and Technology (ACM TIST), 2023

...

Yue Zhang

Philip S. Yu

706

2,839

06 Jul 2023

Style Over Substance: Evaluation Biases for Large Language ModelsInternational Conference on Computational Linguistics (COLING), 2023

Minghao Wu

Alham Fikri Aji

ALM ELM

637

06 Jul 2023

Becoming self-instruct: introducing early stopping criteria for minimal instruct tuning

05 Jul 2023

Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning

159

05 Jul 2023

Robots That Ask For Help: Uncertainty Alignment for Large Language Model PlannersConference on Robot Learning (CoRL), 2023

Allen Z. Ren

Anushri Dixit

Alexandra Bodrova

Sumeet Singh

Stephen Tu

...

Dorsa Sadigh

Anirudha Majumdar

504

310

04 Jul 2023

CARE-MI: Chinese Benchmark for Misinformation Evaluation in Maternity and Infant CareNeural Information Processing Systems (NeurIPS), 2023

322

04 Jul 2023

SCITUNE: Aligning Large Language Models with Scientific Multimodal Instructions

Sameera Horawalavithana

163

03 Jul 2023

Personality Traits in Large Language Models

Gregory Serapio-García

740

181

01 Jul 2023

CMATH: Can Your Language Model Pass Chinese Elementary School Math Test?

185

29 Jun 2023

On the Exploitability of Instruction TuningNeural Information Processing Systems (NeurIPS), 2023

388

128

28 Jun 2023

SCENEREPLICA: Benchmarking Real-World Robot Manipulation by Creating Replicable ScenesIEEE International Conference on Robotics and Automation (ICRA), 2023

Balakrishnan Prabhakaran

Yu Xiang

196

27 Jun 2023

Let's Do a Thought Experiment: Using Counterfactuals to Improve Moral Reasoning

180

25 Jun 2023

Bring Your Own Data! Self-Supervised Evaluation for Large Language Models

267

23 Jun 2023

Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMsInternational Conference on Learning Representations (ICLR), 2023

Zhiyuan Hu

Bryan Hooi

503

705

22 Jun 2023

LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023

Wei Xiong

Tong Zhang

ALM

304

21 Jun 2023

A Simple and Effective Pruning Approach for Large Language ModelsInternational Conference on Learning Representations (ICLR), 2023

Mingjie Sun

Zhuang Liu

Anna Bair

J. Zico Kolter

506

665

20 Jun 2023

Large Language Models are Fixated by Red Herrings: Exploring Creative Problem Solving and Einstellung Effect using the Only Connect Wall DatasetNeural Information Processing Systems (NeurIPS), 2023

359

19 Jun 2023

Toward the Cure of Privacy Policy Reading Phobia: Automated Generation of Privacy Nutrition Labels From Privacy Policies

266

19 Jun 2023

Thrilled by Your Progress! Large Language Models (GPT-4) No Longer Struggle to Pass Assessments in Higher Education Programming CoursesInternational Computing Education Research Workshop (ICER), 2023

270

132

15 Jun 2023

Inverse Scaling: When Bigger Isn't Better

...

287

183

15 Jun 2023

KoLA: Carefully Benchmarking World Knowledge of Large Language ModelsInternational Conference on Learning Representations (ICLR), 2023

Jifan Yu

Xiaozhi Wang

Shangqing Tu

S. Cao

Daniel Zhang-Li

...

Lei Hou

Zhiyuan Liu

Bin Xu

Jie Tang

Juanzi Li

ELM ALM

336

15 Jun 2023

LVLM-eHub: A Comprehensive Evaluation Benchmark for Large Vision-Language ModelsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

Yu Qiao

Ping Luo

ELM MLLM

312

232

15 Jun 2023

CMMLU: Measuring massive multitask language understanding in ChineseAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

447

420

15 Jun 2023

Domain-specific ChatBots for Science using EmbeddingsDigital Discovery (DD), 2023

Kevin G. Yager

175

15 Jun 2023

Revealing the structure of language model capabilities

Ryan Burnell

Hank Hao

Andrew R. A. Conway

José Hernández-Orallo

ELM

177

14 Jun 2023

One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning

320

110

13 Jun 2023