Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models

10 November 2023

Papers citing "Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models"

22 / 22 papers shown

Title
Confidence in Large Language Model Evaluation: A Bayesian Approach to Limited-Sample Challenges Xiao Xiao Yu Su Sijing Zhang Zhang Chen Yadong Chen Tian Liu 32 0 0 30 Apr 2025
Language Models May Verbatim Complete Text They Were Not Explicitly Trained On Ken Ziyu Liu Christopher A. Choquette-Choo Matthew Jagielski Peter Kairouz Sanmi Koyejo Percy Liang Nicolas Papernot 44 0 0 21 Mar 2025
The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination Yifan Sun Han Wang Dongbai Li Gang Wang Huan Zhang AAML 48 0 0 20 Mar 2025
Using Large Language Models for Automated Grading of Student Writing about Science Chris Impey Matthew Wenger Nikhil Garuda Shahriar Golchin Sarah Stamer ELM AI4Ed 32 2 0 25 Dec 2024
On Memorization of Large Language Models in Logical Reasoning Chulin Xie Yangsibo Huang Chiyuan Zhang Da Yu Xinyun Chen Bill Yuchen Lin Bo Li Badih Ghazi Ravi Kumar LRM 41 20 0 30 Oct 2024
ASR Error Correction using Large Language Models Rao Ma Mengjie Qian Mark J. F. Gales Kate Knill KELM 44 1 0 14 Sep 2024
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph Zhehao Zhang Jiaao Chen Diyi Yang LRM 32 7 0 25 Jun 2024
Large Language Models are Zero-Shot Next Location Predictors Ciro Beneduce Bruno Lepri Massimiliano Luca 25 7 0 31 May 2024
ConStat: Performance-Based Contamination Detection in Large Language Models Jasper Dekoninck Mark Niklas Muller Martin Vechev 32 0 0 25 May 2024
Benchmarking Benchmark Leakage in Large Language Models Ruijie Xu Zengzhi Wang Run-Ze Fan Pengfei Liu 53 42 0 29 Apr 2024
TRUCE: Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs Tanmay Rajore Nishanth Chandran Sunayana Sitaram Divya Gupta Rahul Sharma Kashish Mittal Manohar Swaminathan 34 13 0 01 Mar 2024
Dynamic Evaluation of Large Language Models by Meta Probing Agents Kaijie Zhu Jindong Wang Qinlin Zhao Ruochen Xu Xing Xie 30 30 0 21 Feb 2024
DE-COP: Detecting Copyrighted Content in Language Models Training Data André V. Duarte Xuandong Zhao Arlindo L. Oliveira Lei Li 24 8 0 15 Feb 2024
Large Language Models As MOOCs Graders Shahriar Golchin Nikhil Garuda Christopher Impey Matthew Wenger AI4Ed 8 4 0 06 Feb 2024
Evading Data Contamination Detection for Language Models is (too) Easy Jasper Dekoninck Mark Niklas Muller Maximilian Baader Marc Fischer Martin Vechev 79 18 0 05 Feb 2024
Don't Make Your LLM an Evaluation Benchmark Cheater Kun Zhou Yutao Zhu Zhipeng Chen Wentong Chen Wayne Xin Zhao Xu Chen Yankai Lin Ji-Rong Wen Jiawei Han ELM 102 136 0 03 Nov 2023
Data Contamination Through the Lens of Time Manley Roberts Himanshu Thakur Christine Herlihy Colin White Samuel Dooley 73 30 0 16 Oct 2023
DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks A. Maritan Jiaao Chen S. Dey Luca Schenato Diyi Yang Xing Xie ELM LRM 14 42 0 29 Sep 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 197 2,232 0 22 Mar 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Deduplicating Training Data Makes Language Models Better Katherine Lee Daphne Ippolito A. Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini SyDa 234 447 0 14 Jul 2021
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,927 0 20 Apr 2018