Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory

27 October 2023

Niloofar Mireshghallah

Xuhui Zhou

Yejin Choi

Papers citing "Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory"

20 / 20 papers shown

Title
A Survey on Privacy Risks and Protection in Large Language Models Kang Chen Xiuze Zhou Yuanguo Lin Shibo Feng Li Shen Pengcheng Wu AILaw PILM 103 0 0 04 May 2025
Anti-adversarial Learning: Desensitizing Prompts for Large Language Models Xuan Li Zhe Yin Xiaodong Gu Beijun Shen AAML MU 58 0 0 25 Apr 2025
aiXamine: Simplified LLM Safety and Security Fatih Deniz Dorde Popovic Yazan Boshmaf Euisuh Jeong M. Ahmad Sanjay Chawla Issa M. Khalil ELM 75 0 0 21 Apr 2025
Protecting Users From Themselves: Safeguarding Contextual Privacy in Interactions with Conversational Agents Ivoline Ngong Swanand Kadhe Hao Wang K. Murugesan Justin D. Weisz Amit Dhurandhar K. Ramamurthy 44 2 0 22 Feb 2025
SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks Hongye Cao Yanming Wang Sijia Jing Ziyue Peng Zhixin Bai ... Yang Gao Fanyu Meng Xi Yang Chao Deng Junlan Feng AAML 41 0 0 16 Feb 2025
PAPILLON: Privacy Preservation from Internet-based and Local Language Model Ensembles Li Siyan Vethavikashini Chithrra Raghuram Omar Khattab Julia Hirschberg Zhou Yu 21 7 0 22 Oct 2024
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs Yujun Zhou Jingdong Yang Kehan Guo Pin-Yu Chen Tian Gao ... Tian Gao Werner Geyer Nuno Moniz Nitesh V Chawla Xiangliang Zhang 35 4 0 18 Oct 2024
RAGent: Retrieval-based Access Control Policy Generation Sakuna Jayasundara N. Arachchilage Giovanni Russello 44 1 0 08 Sep 2024
GoldCoin: Grounding Large Language Models in Privacy Laws via Contextual Integrity Theory Wei Fan Haoran Li Zheye Deng Weiqi Wang Yangqiu Song AILaw 33 8 0 17 Jun 2024
Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications Stephen Burabari Tete 34 6 0 16 Jun 2024
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models Seungone Kim Juyoung Suk Ji Yong Cho Shayne Longpre Chaeeun Kim ... Sean Welleck Graham Neubig Moontae Lee Kyungjae Lee Minjoon Seo ELM ALM LM&MA 97 30 0 09 Jun 2024
NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human Shuo Huang William MacLean Xiaoxi Kang Anqi Wu Lizhen Qu Qiongkai Xu Zhuang Li Xingliang Yuan Gholamreza Haffari 30 0 0 06 Jun 2024
The Mosaic Memory of Large Language Models Igor Shilov Matthieu Meeus Yves-Alexandre de Montjoye 39 3 0 24 May 2024
SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety Paul Röttger Fabio Pernisi Bertie Vidgen Dirk Hovy ELM KELM 58 30 0 08 Apr 2024
"I'm categorizing LLM as a productivity tool": Examining ethics of LLM use in HCI research practices Shivani Kapania Ruiyi Wang Toby Jia-Jun Li Tianshi Li Hong Shen 31 6 0 28 Mar 2024
How Trustworthy are Open-Source LLMs? An Assessment under Malicious Demonstrations Shows their Vulnerabilities Lingbo Mo Boshi Wang Muhao Chen Huan Sun 29 27 0 15 Nov 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,881 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,448 0 28 Jan 2022
Can Machines Learn Morality? The Delphi Experiment Liwei Jiang Jena D. Hwang Chandra Bhagavatula Ronan Le Bras Jenny T Liang ... Yulia Tsvetkov Oren Etzioni Maarten Sap Regina A. Rini Yejin Choi FaML 117 110 0 14 Oct 2021
Differentially Private Fine-tuning of Language Models Da Yu Saurabh Naik A. Backurs Sivakanth Gopi Huseyin A. Inan ... Y. Lee Andre Manoel Lukas Wutschitz Sergey Yekhanin Huishuai Zhang 134 346 0 13 Oct 2021