LMentry: A Language Model Benchmark of Elementary Language Tasks

3 November 2022

Papers citing "LMentry: A Language Model Benchmark of Elementary Language Tasks"

17 / 17 papers shown

Title
Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework Olivier Binette Jerome P. Reiter 28 0 0 14 Jun 2024
Efficient multi-prompt evaluation of LLMs Felipe Maia Polo Ronald Xu Lucas Weber Mírian Silva Onkar Bhardwaj Leshem Choshen Allysson Flavio Melo de Oliveira Yuekai Sun Mikhail Yurochkin 37 17 0 27 May 2024
Large Language Models Lack Understanding of Character Composition of Words Andrew Shin Kunitake Kaneko 19 7 0 18 May 2024
State of What Art? A Call for Multi-Prompt LLM Evaluation Moran Mizrahi Guy Kaplan Daniel Malkin Rotem Dror Dafna Shahaf Gabriel Stanovsky ELM 19 123 0 31 Dec 2023
Transcending the Attention Paradigm: Representation Learning from Geospatial Social Media Data Nick DiSanto Anthony Corso Benjamin Sanders Gavin Harding GNN 10 0 0 09 Oct 2023
How is ChatGPT's behavior changing over time? Lingjiao Chen Matei A. Zaharia James Y. Zou ELM KELM AI4MH 16 407 0 18 Jul 2023
Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features Ester Hlavnova Sebastian Ruder 17 5 0 11 Jul 2023
LLM-Assisted Content Analysis: Using Large Language Models to Support Deductive Coding Robert F. Chew John Bollenbacher Michael Wenger Jessica Speer Annice Kim ELM 11 56 0 23 Jun 2023
Surfacing Biases in Large Language Models using Contrastive Input Decoding G. Yona Or Honovich Itay Laish Roee Aharoni 14 11 0 12 May 2023
Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor Or Honovich Thomas Scialom Omer Levy Timo Schick ALM 31 358 0 19 Dec 2022
On the Relation between Sensitivity and Accuracy in In-context Learning Yanda Chen Chen Zhao Zhou Yu Kathleen McKeown He He 180 77 0 16 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,881 0 04 Mar 2022
PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts Stephen H. Bach Victor Sanh Zheng-Xin Yong Albert Webson Colin Raffel ... Khalid Almubarak Xiangru Tang Dragomir R. Radev Mike Tian-Jian Jiang Alexander M. Rush VLM 225 338 0 02 Feb 2022
Multitask Prompted Training Enables Zero-Shot Task Generalization Victor Sanh Albert Webson Colin Raffel Stephen H. Bach Lintang Sutawika ... T. Bers Stella Biderman Leo Gao Thomas Wolf Alexander M. Rush LRM 205 1,654 0 15 Oct 2021
Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity Yao Lu Max Bartolo Alastair Moore Sebastian Riedel Pontus Stenetorp AILaw LRM 277 1,114 0 18 Apr 2021
Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP Timo Schick Sahana Udupa Hinrich Schütze 257 374 0 28 Feb 2021
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics Sebastian Gehrmann Tosin P. Adewumi Karmanya Aggarwal Pawan Sasanka Ammanamanchi Aremu Anuoluwapo ... Nishant Subramani Wei-ping Xu Diyi Yang Akhila Yerukola Jiawei Zhou VLM 243 284 0 02 Feb 2021