Does BERT Pretrained on Clinical Notes Reveal Sensitive Data?

15 April 2021

Papers citing "Does BERT Pretrained on Clinical Notes Reveal Sensitive Data?"

50 / 75 papers shown

Title
DMRL: Data- and Model-aware Reward Learning for Data Extraction Zhiqiang Wang Ruoxi Cheng 26 0 0 07 May 2025
Privacy Ripple Effects from Adding or Removing Personal Information in Language Model Training Jaydeep Borkar Matthew Jagielski Katherine Lee Niloofar Mireshghallah David A. Smith Christopher A. Choquette-Choo PILM 78 1 0 24 Feb 2025
A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics Kai He Rui Mao Qika Lin Yucheng Ruan Xiang Lan Mengling Feng Erik Cambria LM&MA AILaw 93 153 0 28 Jan 2025
On Active Privacy Auditing in Supervised Fine-tuning for White-Box Language Models Qian Sun Hanpeng Wu Xi Sheryl Zhang 36 0 0 11 Nov 2024
Unlearning in- vs. out-of-distribution data in LLMs under gradient-based method Teodora Baluta Pascal Lamblin Daniel Tarlow Fabian Pedregosa Gintare Karolina Dziugaite MU 32 1 0 07 Nov 2024
Undesirable Memorization in Large Language Models: A Survey Ali Satvaty Suzan Verberne Fatih Turkmen ELM PILM 71 7 0 03 Oct 2024
Trustworthy AI: Securing Sensitive Data in Large Language Models G. Feretzakis V. Verykios 18 10 0 26 Sep 2024
PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action Yijia Shao Tianshi Li Weiyan Shi Yanchen Liu Diyi Yang PILM 50 13 0 29 Aug 2024
LLM-PBE: Assessing Data Privacy in Large Language Models Qinbin Li Junyuan Hong Chulin Xie Jeffrey Tan Rachel Xin ... Dan Hendrycks Zhangyang Wang Bo Li Bingsheng He Dawn Song ELM PILM 36 12 0 23 Aug 2024
AspirinSum: an Aspect-based utility-preserved de-identification Summarization framework Ya-Lun Li 45 0 0 20 Jun 2024
Semantic Membership Inference Attack against Large Language Models Hamid Mozaffari Virendra J. Marathe MIALM 45 3 0 14 Jun 2024
Reconstructing training data from document understanding models Jérémie Dentan Arnaud Paran A. Shabou AAML SyDa 38 1 0 05 Jun 2024
Extracting Prompts by Inverting LLM Outputs Collin Zhang John X. Morris Vitaly Shmatikov 36 15 0 23 May 2024
Exploring the Privacy Protection Capabilities of Chinese Large Language Models Yuqi Yang Xiaowen Huang Jitao Sang ELM PILM AILaw 41 1 0 27 Mar 2024
On Protecting the Data Privacy of Large Language Models (LLMs): A Survey Biwei Yan Kun Li Minghui Xu Yueyan Dong Yue Zhang Zhaochun Ren Xiuzhen Cheng AILaw PILM 70 76 0 08 Mar 2024
Amplifying Training Data Exposure through Fine-Tuning with Pseudo-Labeled Memberships Myung Gyo Oh Hong Eun Ahn L. Park T.-H. Kwon MIALM AAML 27 0 0 19 Feb 2024
Do Membership Inference Attacks Work on Large Language Models? Michael Duan Anshuman Suri Niloofar Mireshghallah Sewon Min Weijia Shi Luke Zettlemoyer Yulia Tsvetkov Yejin Choi David E. Evans Hanna Hajishirzi MIALM 29 79 0 12 Feb 2024
Do LLMs Dream of Ontologies? Marco Bombieri Paolo Fiorini Simone Paolo Ponzetto M. Rospocher CLL 24 2 0 26 Jan 2024
Generative AI in EU Law: Liability, Privacy, Intellectual Property, and Cybersecurity Claudio Novelli F. Casolari Philipp Hacker Giorgio Spedicato Luciano Floridi AILaw SILM 42 43 0 14 Jan 2024
Data-Centric Foundation Models in Computational Healthcare: A Survey Yunkun Zhang Jin Gao Zheling Tan Lingfeng Zhou Kexin Ding Mu Zhou Shaoting Zhang Dequan Wang AI4CE 23 22 0 04 Jan 2024
FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in LLMs S. Kadhe Anisa Halimi Ambrish Rawat Nathalie Baracaldo MU 14 7 0 12 Dec 2023
Do Localization Methods Actually Localize Memorized Data in LLMs? A Tale of Two Benchmarks Ting-Yun Chang Jesse Thomason Robin Jia 15 14 0 15 Nov 2023
Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration Wenjie Fu Huandong Wang Chen Gao Guanghua Liu Yong Li Tao Jiang MIALM 24 43 0 10 Nov 2023
Future Lens: Anticipating Subsequent Tokens from a Single Hidden State Koyena Pal Jiuding Sun Andrew Yuan Byron C. Wallace David Bau 22 50 0 08 Nov 2023
SoK: Memorization in General-Purpose Large Language Models Valentin Hartmann Anshuman Suri Vincent Bindschaedler David E. Evans Shruti Tople Robert West KELM LLMAG 16 20 0 24 Oct 2023
Privacy in Large Language Models: Attacks, Defenses and Future Directions Haoran Li Yulin Chen Jinglong Luo Yan Kang Xiaojin Zhang Qi Hu Chunkit Chan Yangqiu Song PILM 38 41 0 16 Oct 2023
Text Embeddings Reveal (Almost) As Much As Text John X. Morris Volodymyr Kuleshov Vitaly Shmatikov Alexander M. Rush RALM 26 94 0 10 Oct 2023
Deep Representations of First-person Pronouns for Prediction of Depression Symptom Severity Xinyang Ren Hannah A. Burkhardt Patricia A. Areán Thomas D Hull Trevor Cohen 12 0 0 05 Oct 2023
Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey Victoria Smith Ali Shahin Shamsabadi Carolyn Ashurst Adrian Weller PILM 32 24 0 27 Sep 2023
Large Language Model Alignment: A Survey Tianhao Shen Renren Jin Yufei Huang Chuang Liu Weilong Dong Zishan Guo Xinwei Wu Yan Liu Deyi Xiong LM&MA 19 177 0 26 Sep 2023
DP-Forward: Fine-tuning and Inference on Language Models with Differential Privacy in Forward Pass Minxin Du Xiang Yue Sherman S. M. Chow Tianhao Wang Chenyu Huang Huan Sun SILM 27 58 0 13 Sep 2023
Enhancing Phenotype Recognition in Clinical Notes Using Large Language Models: PhenoBCBERT and PhenoGPT Jing Yang Cong Liu Wendy Deng Dangwei Wu C. Weng Yunyun Zhou Kai Wang 21 20 0 11 Aug 2023
On the Trustworthiness Landscape of State-of-the-art Generative Models: A Survey and Outlook Mingyuan Fan Chengyu Wang Cen Chen Yang Liu Jun Huang HILM 31 3 0 31 Jul 2023
What can we learn from Data Leakage and Unlearning for Law? Jaydeep Borkar PILM MU 30 10 0 19 Jul 2023
Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft Prompting and Calibrated Confidence Estimation Zhexin Zhang Jiaxin Wen Minlie Huang 25 29 0 10 Jul 2023
Deconstructing Classifiers: Towards A Data Reconstruction Attack Against Text Classification Models Adel M. Elmahdy A. Salem SILM 9 6 0 23 Jun 2023
Event Stream GPT: A Data Pre-processing and Modeling Library for Generative, Pre-trained Transformers over Continuous-time Sequences of Complex Events Matthew B. A. McDermott Bret A. Nestor Peniel Argaw I. Kohane AI4TS 24 21 0 20 Jun 2023
Training Data Extraction From Pre-trained Language Models: A Survey Shotaro Ishihara 24 46 0 25 May 2023
Are Chatbots Ready for Privacy-Sensitive Applications? An Investigation into Input Regurgitation and Prompt-Induced Sanitization Aman Priyanshu Supriti Vijay Ayush Kumar Rakshit Naidu Fatemehsadat Mireshghallah SILM 30 24 0 24 May 2023
Privacy Implications of Retrieval-Based Language Models Yangsibo Huang Samyak Gupta Zexuan Zhong K. Li Danqi Chen RALM 25 29 0 24 May 2023
Quantifying Association Capabilities of Large Language Models and Its Implications on Privacy Leakage Hanyin Shao Jie Huang Shen Zheng Kevin Chen-Chuan Chang PILM 22 24 0 22 May 2023
In the Name of Fairness: Assessing the Bias in Clinical Record De-identification Yuxin Xiao S. Lim Tom Pollard Marzyeh Ghassemi 18 12 0 18 May 2023
DarkBERT: A Language Model for the Dark Side of the Internet Youngjin Jin Eugene Jang Jian Cui Jin-Woo Chung Yongjae Lee Seung-Eui Shin 15 35 0 15 May 2023
Synthetic Query Generation for Privacy-Preserving Deep Retrieval Systems using Differentially Private Language Models Aldo G. Carranza Rezsa Farahani Natalia Ponomareva Alexey Kurakin Matthew Jagielski Milad Nasr SyDa 20 7 0 10 May 2023
Development and validation of a natural language processing algorithm to pseudonymize documents in the context of a clinical data warehouse X. Tannier Perceval Wajsburt Alice Calliger Basile Dura Alexandre Mouchet M. Hilka R. Bey 11 10 0 23 Mar 2023
Man vs the machine: The Struggle for Effective Text Anonymisation in the Age of Large Language Models Constantinos Patsakis Nikolaos Lykousas 19 9 0 22 Mar 2023
Language Model Behavior: A Comprehensive Survey Tyler A. Chang Benjamin Bergen VLM LRM LM&MA 27 103 0 20 Mar 2023
Do We Still Need Clinical Language Models? Eric P. Lehman Evan Hernandez Diwakar Mahajan Jonas Wulff Micah J. Smith Zachary M. Ziegler Daniel Nadler Peter Szolovits Alistair E. W. Johnson Emily Alsentzer LM&MA AI4MH 24 133 0 16 Feb 2023
Lightweight Transformers for Clinical Natural Language Processing Omid Rohanian Mohammadmahdi Nouriborji Hannah Jauncey Samaneh Kouchaki Isaric Clinical Characterisation Group Lei A. Clifton L. Merson David A. Clifton MedIm LM&MA 16 12 0 09 Feb 2023
Bag of Tricks for Training Data Extraction from Language Models Weichen Yu Tianyu Pang Qian Liu Chao Du Bingyi Kang Yan Huang Min-Bin Lin Shuicheng Yan 21 47 0 09 Feb 2023