Probing Language Models for Pre-training Data Detection

Probing Language Models for Pre-training Data Detection

3 June 2024

ArXiv (abs)PDF HTML Github (19★)

Papers citing "Probing Language Models for Pre-training Data Detection"

10 / 10 papers shown

Title
As If We've Met Before: LLMs Exhibit Certainty in Recognizing Seen Files Haodong Li Jingqi Zhang Xiao Cheng Peihua Mai Haoyu Wang Yang Pan 225 0 0 19 Nov 2025
On The Fragility of Benchmark Contamination Detection in Reasoning Models Han Wang Haoyu Li Brian Ko Huan Zhang 118 1 0 30 Sep 2025
REMA: A Unified Reasoning Manifold Framework for Interpreting Large Language Model Bo Li Guanzhi Deng Ronghao Chen Junrong Yue Shuo Zhang Qinghua Zhao Linqi Song Lijie Wen LRM 85 0 0 26 Sep 2025
False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize Cheng Wang Zeming Wei Qin Liu Muhao Chen AAML 116 1 0 04 Sep 2025
SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks Kaiyuan Zhang Siyuan Cheng Hanxi Guo Yuetian Chen Zian Su ... Yuntao Du Charles Fleming Jayanth Srinivasa Xiangyu Zhang Ninghui Li AAML 352 4 0 12 Jun 2025
Language Models Can Predict Their Own Behavior Dhananjay Ashok Jonathan May AI4TS ReLM LRM 366 5 0 18 Feb 2025
Pretraining Data Detection for Large Language Models: A Divergence-based Calibration MethodConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Weichao Zhang Ruqing Zhang Jiafeng Guo Maarten de Rijke Yixing Fan Xueqi Cheng 365 41 0 23 Sep 2024
Learning to Refuse: Towards Mitigating Privacy Risks in LLMs Zhenhua Liu Tong Zhu Chuanyuan Tan Wenliang Chen PILM MU 202 17 0 14 Jul 2024
Sampling-based Pseudo-Likelihood for Membership Inference Attacks Masahiro Kaneko Youmi Ma Yuki Wata Naoaki Okazaki 245 16 0 17 Apr 2024
Do LLMs Dream of Ontologies?ACM Transactions on Intelligent Systems and Technology (ACM TIST), 2024 Marco Bombieri Paolo Fiorini Simone Paolo Ponzetto M. Rospocher CLL 294 5 0 26 Jan 2024