Papers citing 'Early External Safety Testing of OpenAI's o3-mini: Insights from the Pre-Deployment Evaluation'

Title
Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models Baihui Zheng Boren Zheng Kerui Cao Y. Tan Zhendong Liu ... Jian Yang Wenbo Su Xiaoyong Zhu Bo Zheng Kaifu Zhang ELM 165 2 0 26 May 2025
Safety in Large Reasoning Models: A Survey Cheng Wang Teli Ma Yangqiu Song Duzhen Zhang Hao Sun ... Shengju Yu Xinfeng Li Junfeng Fang Jiaheng Zhang Bryan Hooi LRM 625 26 0 24 Apr 2025
Reasoning without Regret Tarun Chitra OffRL LRM 110 0 0 14 Apr 2025
Boosting the Generalization and Reasoning of Vision Language Models with Curriculum Reinforcement Learning Huilin Deng Ding Zou Rui Ma Hongchen Luo Yang Cao Yu Kang LRM VLM 152 31 0 10 Mar 2025
Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025:A Comparative Analysis of Clinical Reasoning and Knowledge Application Carlos Luengo Vera Ignacio Ferro Picon M. Teresa del Val Nunez Jose Andres Gomez Gandia Antonio de Lucas Ancillo Victor Ramos Arroyo Carlos Milan Figueredo ELM LM&MA 134 0 0 24 Feb 2025
Dyve: Thinking Fast and Slow for Dynamic Process Verification Jianyuan Zhong Zhiyu Li Zhijian Xu Xiangyu Wen Qiang Xu LRM 119 4 0 16 Feb 2025