SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming

14 August 2024

Papers citing "SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming"

2 / 2 papers shown

Title
No Free Lunch with Guardrails Divyanshu Kumar Nitin Aravind Birur Tanay Baswa Sahil Agarwal P. Harshangi 54 1 0 01 Apr 2025
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 226 4,453 0 23 Jan 2020