Estimating Worst-Case Frontier Risks of Open-Weight LLMs

v1v2 (latest)

Estimating Worst-Case Frontier Risks of Open-Weight LLMs

5 August 2025

ArXiv (abs)PDF HTML Github

Papers citing "Estimating Worst-Case Frontier Risks of Open-Weight LLMs"

5 / 5 papers shown

Title
Best Practices for Biorisk Evaluations on Open-Weight Bio-Foundation Models Boyi Wei Zora Che Nathaniel Li Udari Madhushani Sehwag Jasper Götting ... Dan Hendrycks Peter Henderson Zifan Wang Seth Donoughe Mantas Mazeika 250 0 0 31 Oct 2025
HarmRLVR: Weaponizing Verifiable Rewards for Harmful LLM Alignment Y. Liu Lijun Li X. Wang Jing Shao LLMSV 237 0 0 17 Oct 2025
Fine-Tuning Jailbreaks under Highly Constrained Black-Box Settings: A Three-Pronged Approach X. Li Y. Wang Bo Li AAML 209 0 0 01 Oct 2025
Token Buncher: Shielding LLMs from Harmful Reinforcement Learning Fine-Tuning Weitao Feng Lixu Wang Tianyi Wei Jie Zhang Chongyang Gao Sinong Zhan Peizhuo Lv Wei Dong AAML OffRL CLL 72 0 0 28 Aug 2025
Standardization of Neuromuscular Reflex Analysis -- Role of Fine-Tuned Vision-Language Model Consortium and OpenAI gpt-oss Reasoning LLM Enabled Decision Support System Eranga Bandara Ross Gore Sachin Shetty Ravi Mukkamala Christopher Rhea ... L.H.M.P.De Silva Andriy Maznychenko Inna Sokolowska Amin Hass Kasun De Zoysa 93 0 0 17 Aug 2025