Robust LLM Fingerprinting via Domain-Specific Watermarks

Robust LLM Fingerprinting via Domain-Specific Watermarks

22 May 2025

Thibaud Gloaguen

Nikola Jovanović

Papers citing "Robust LLM Fingerprinting via Domain-Specific Watermarks"

10 / 10 papers shown

Title
Can you Finetune your Binoculars? Embedding Text Watermarks into the Weights of Large Language Models Fay Elhassan Niccolò Ajroldi Antonio Orvieto Jonas Geiping 320 1 0 08 Apr 2025
A generative approach to LLM harmfulness detection with special red flag tokens Sophie Xhonneux David Dobre Mehrnaz Mohfakhami Leo Schwinn Gauthier Gidel 124 2 0 22 Feb 2025
Scalable Fingerprinting of Large Language Models Anshul Nasery J. Hayase Creston Brooks Peiyao Sheng Himanshu Tyagi Pramod Viswanath Sewoong Oh 54 2 0 11 Feb 2025
GaussMark: A Practical Approach for Structural Watermarking of Language Models Adam Block Ayush Sekhari Alexander Rakhlin WaLM 52 2 0 17 Jan 2025
HuRef: HUman-REadable Fingerprint for Large Language Models Boyi Zeng Cheng Zhou Yuncong Hu Yi Xu Chenghu Zhou Xiang Wang Yu Yu Zhouhan Lin 71 12 0 08 Jan 2025
Ward: Provable RAG Dataset Inference via LLM Watermarks Nikola Jovanović Robin Staab Maximilian Baader Martin Vechev 351 3 0 04 Oct 2024
LLMmap: Fingerprinting For Large Language Models Dario Pasquini Evgenios M. Kornaropoulos G. Ateniese 83 6 0 22 Jul 2024
Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks Maksym Andriushchenko Francesco Croce Nicolas Flammarion AAML 121 186 0 02 Apr 2024
Learning to Watermark LLM-generated Text via Reinforcement Learning Xiaojun Xu Yuanshun Yao Yang Liu 55 14 0 13 Mar 2024
Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou Zifan Wang Nicholas Carlini Milad Nasr J. Zico Kolter Matt Fredrikson 163 1,376 0 27 Jul 2023