Advancing LLM Safe Alignment with Safety Representation Ranking

21 May 2025

Papers citing "Advancing LLM Safe Alignment with Safety Representation Ranking"

6 / 6 papers shown

Language Ranker: A Lightweight Ranking framework for LLM Decoding

190

23 Oct 2025

AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software

Rui Yang

Michael Fu

Chakkrit Tantithamthavorn

Chetan Arora

Gunel Gulmammadova

Joey Chua

137

21 Sep 2025

ReGA: Representation-Guided Abstraction for Model-based Safeguarding of LLMs

Zeming Wei

Chengcan Wu

Meng Sun

215

02 Jun 2025

LiPO: Listwise Preference Optimization through Learning-to-RankNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

...

601

28 Jan 2025

Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

928

571

03 Jan 2025

SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal

Tinghao Xie

Xiangyu Qi

Yi Zeng

Yangsibo Huang

Udari Madhushani Sehwag

...

Bo Li

Kai Li

423

135

20 Jun 2024