The Text Anonymization Benchmark (TAB): A Dedicated Corpus and Evaluation Framework for Text Anonymization

25 January 2022

Papers citing "The Text Anonymization Benchmark (TAB): A Dedicated Corpus and Evaluation Framework for Text Anonymization"

36 / 36 papers shown

Title
A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage Rui Xin Niloofar Mireshghallah Shuyue Stella Li Michael Duan Hyunwoo Kim Yejin Choi Yulia Tsvetkov Sewoong Oh Pang Wei Koh 74 2 0 28 Apr 2025
Towards Harnessing the Collaborative Power of Large and Small Models for Domain Tasks Yang Liu Bingjie Yan Tianyuan Zou Jianqing Zhang Zixuan Gu ... J. Li Xiaozhou Ye Ye Ouyang Qiang Yang Yuhang Zhang ALM 155 1 0 24 Apr 2025
Tokens for Learning, Tokens for Unlearning: Mitigating Membership Inference Attacks in Large Language Models via Dual-Purpose Training Toan Tran Ruixuan Liu Li Xiong MU 46 0 0 27 Feb 2025
Data-Constrained Synthesis of Training Data for De-Identification Thomas Vakili Aron Henriksson Hercules Dalianis SyDa 44 0 0 24 Feb 2025
Clio: Privacy-Preserving Insights into Real-World AI Use Alex Tamkin Miles McCain Kunal Handa Esin Durmus Liane Lovitt ... Wes Mitchell Shan Carter Jack Clark Jared Kaplan Deep Ganguli 85 14 0 18 Dec 2024
DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization John X. Morris Thomas R. Campion Sri Laasya Nutheti Yifan Peng Akhil Raj Ramin Zabih Curtis L. Cole 16 0 0 22 Oct 2024
Reconstruction of Differentially Private Text Sanitization via Large Language Models Shuchao Pang Zhigang Lu Haoran Wang Peng Fu Yongbin Zhou Minhui Xue AAML 58 4 0 16 Oct 2024
Private Language Models via Truncated Laplacian Mechanism Tianhao Huang Tao Yang Ivan Habernal Lijie Hu Di Wang 35 1 0 10 Oct 2024
LLM-PBE: Assessing Data Privacy in Large Language Models Qinbin Li Junyuan Hong Chulin Xie Jeffrey Tan Rachel Xin ... Dan Hendrycks Zhangyang Wang Bo Li Bingsheng He Dawn Song ELM PILM 40 13 0 23 Aug 2024
Comparing Feature-based and Context-aware Approaches to PII Generalization Level Prediction Kailin Zhang Xinying Qiu 25 0 0 03 Jul 2024
IncogniText: Privacy-enhancing Conditional Text Anonymization via LLM-based Private Attribute Randomization Ahmed Frikha Nassim Walha K. K. Nakka Ricardo Mendes Xue Jiang Xuebing Zhou 34 2 0 03 Jul 2024
Cloaked Classifiers: Pseudonymization Strategies on Sensitive Classification Tasks Arij Riabi Menel Mahamdi Virginie Mouilleron Djamé Seddah 42 1 0 25 Jun 2024
Unlocking the Potential of Large Language Models for Clinical Text Anonymization: A Comparative Study David Pissarra Isabel Curioso João Alveira Duarte Pereira Bruno Ribeiro Tomas Souper Vasco Gomes A. Carreiro Vitor Rolla 20 2 0 29 May 2024
Evaluating the Efficacy of AI Techniques in Textual Anonymization: A Comparative Study Dimitris Asimopoulos Ilias Siniosoglou Vasileios Argyriou Sotirios K Goudos Konstantinos E. Psannis Nikoleta Karditsioti Theocharis Saoulidis Panagiotis G. Sarigiannidis 23 0 0 09 May 2024
Silencing the Risk, Not the Whistle: A Semi-automated Text Sanitization Tool for Mitigating the Risk of Whistleblower Re-Identification Dimitri Staufer Frank Pallas Bettina Berendt 22 3 0 02 May 2024
Safe Training with Sensitive In-domain Data: Leveraging Data Fragmentation To Mitigate Linkage Attacks Mariia Ignashina Julia Ive 20 0 0 30 Apr 2024
Benchmarking Advanced Text Anonymisation Methods: A Comparative Study on Novel and Traditional Approaches Dimitris Asimopoulos Ilias Siniosoglou Vasileios Argyriou Thomai Karamitsou Eleftherios Fountoukidis Sotirios K Goudos Ioannis D. Moscholios Konstantinos E. Psannis Panagiotis G. Sarigiannidis 22 4 0 22 Apr 2024
RedactBuster: Entity Type Recognition from Redacted Documents Mirco Beltrame Mauro Conti Pierpaolo Guglielmin Francesco Marchiori Gabriele Orazi 21 0 0 19 Apr 2024
Privacy-Preserving Instructions for Aligning Large Language Models Da Yu Peter Kairouz Sewoong Oh Zheng Xu 34 17 0 21 Feb 2024
Large Language Models are Advanced Anonymizers Robin Staab Mark Vero Mislav Balunović Martin Vechev 33 10 0 21 Feb 2024
Text Sanitization Beyond Specific Domains: Zero-Shot Redaction & Substitution with Large Language Models Federico Albanese D. Ciolek Nicolás DÍppolito AILaw 29 6 0 16 Nov 2023
Reducing Privacy Risks in Online Self-Disclosures with Language Models Yao Dou Isadora Krsek Tarek Naous Anubha Kabra Sauvik Das Alan Ritter Wei-ping Xu 38 21 0 16 Nov 2023
FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering Md. Rafi Ur Rashid Vishnu Asutosh Dasu Kang Gu Najrin Sultana Shagufta Mehnaz AAML FedML 46 10 0 24 Oct 2023
Grandma Karl is 27 years old -- research agenda for pseudonymization of research data Elena Volodina Simon Dobnik Therese Lindström Tiedemann Xuan-Son Vu 8 4 0 30 Aug 2023
Beyond Document Page Classification: Design, Datasets, and Challenges Jordy Van Landeghem Sanket Biswas Matthew B. Blaschko Marie-Francine Moens 40 6 0 24 Aug 2023
Informed Named Entity Recognition Decoding for Generative Language Models Tobias Deuβer L. Hillebrand Christian Bauckhage R. Sifa 35 8 0 15 Aug 2023
Does fine-tuning GPT-3 with the OpenAI API leak personally-identifiable information? A. Sun Eliott Zemour Arushi Saxena Udith Vaidyanathan Eric Lin Christian Lau Vaikkunth Mugunthan SILM 40 18 0 31 Jul 2023
Protecting User Privacy in Remote Conversational Systems: A Privacy-Preserving framework based on text sanitization Zhigang Kan Linbo Qiao Hao Yu Liwen Peng Yifu Gao Dongsheng Li 26 20 0 14 Jun 2023
Privacy- and Utility-Preserving NLP with Anonymized Data: A case study of Pseudonymization Oleksandr Yermilov Vipul Raheja Artem Chernodub 17 9 0 08 Jun 2023
Crowdsourcing on Sensitive Data with Privacy-Preserving Text Rewriting Nina Mouhammad Johannes Daxenberger Benjamin Schiller Ivan Habernal 30 2 0 06 Mar 2023
Analyzing Leakage of Personally Identifiable Information in Language Models Nils Lukas A. Salem Robert Sim Shruti Tople Lukas Wutschitz Santiago Zanella Béguelin PILM 24 211 0 01 Feb 2023
Differentially Private Natural Language Models: Recent Advances and Future Directions Lijie Hu Ivan Habernal Lei Shen Di Wang AAML 30 18 0 22 Jan 2023
Privacy-Preserving Models for Legal Natural Language Processing Ying Yin Ivan Habernal PILM AILaw 6 8 0 05 Nov 2022
Unsupervised Text Deidentification John X. Morris Justin T. Chiu Ramin Zabih Alexander M. Rush 24 6 0 20 Oct 2022
Addressing Resource and Privacy Constraints in Semantic Parsing Through Data Augmentation Kevin Yang Olivia Deng Charles C. Chen Richard Shin Subhro Roy Benjamin Van Durme 45 10 0 18 May 2022
Bootstrapping Text Anonymization Models with Distant Supervision Anthia Papadopoulou Pierre Lison Lilja Øvrelid Ildikó Pilán 11 8 0 13 May 2022