PKU-SafeRLHF: A Safety Alignment Preference Dataset for Llama Family
Models

PKU-SafeRLHF: A Safety Alignment Preference Dataset for Llama Family Models

20 June 2024

Yaodong Yang

Papers citing "PKU-SafeRLHF: A Safety Alignment Preference Dataset for Llama Family Models"

12 / 12 papers shown

Title
Probing and Inducing Combinational Creativity in Vision-Language Models Yongqian Peng Yuxi Ma Mengmeng Wang Yuxuan Wang Yizhou Wang C. Zhang Yixin Zhu Zilong Zheng MLLM CoGe 74 0 0 17 Apr 2025
Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation Shuo Tang Xianghe Pang Zexi Liu Bohan Tang Rui Ye Xiaowen Dong Y. Wang Yanfeng Wang S. Chen SyDa LLMAG 109 3 0 21 Feb 2025
Rethinking Reward Model Evaluation: Are We Barking up the Wrong Tree? Xueru Wen Jie Lou Y. Lu Hongyu Lin Xing Yu Xinyu Lu Ben He Xianpei Han Debing Zhang Le Sun ALM 53 4 0 17 Feb 2025
Latent Feature Mining for Predictive Model Enhancement with Large Language Models Bingxuan Li Pengyi Shi Amy Ward 33 0 0 06 Oct 2024
Position: LLM Unlearning Benchmarks are Weak Measures of Progress Pratiksha Thaker Shengyuan Hu Neil Kale Yash Maurya Zhiwei Steven Wu Virginia Smith MU 36 10 0 03 Oct 2024
AlignBench: Benchmarking Chinese Alignment of Large Language Models Xiao Liu Xuanyu Lei Sheng-Ping Wang Yue Huang Zhuoer Feng ... Hongning Wang Jing Zhang Minlie Huang Yuxiao Dong Jie Tang ELM LM&MA ALM 111 41 0 30 Nov 2023
Towards Understanding Sycophancy in Language Models Mrinank Sharma Meg Tong Tomasz Korbak D. Duvenaud Amanda Askell ... Oliver Rausch Nicholas Schiefer Da Yan Miranda Zhang Ethan Perez 207 178 0 20 Oct 2023
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 110 292 0 19 Sep 2023
On the Risk of Misinformation Pollution with Large Language Models Yikang Pan Liangming Pan Wenhu Chen Preslav Nakov Min-Yen Kan W. Wang DeLMO 188 105 0 23 May 2023
Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability Mengdi Xu Zuxin Liu Peide Huang Wenhao Ding Zhepeng Cen Bo-wen Li Ding Zhao 59 45 0 16 Sep 2022
A Review of Safe Reinforcement Learning: Methods, Theory and Applications Shangding Gu Longyu Yang Yali Du Guang Chen Florian Walter Jun Wang Alois C. Knoll OffRL AI4TS 99 231 0 20 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022