Measuring short-form factuality in large language models

7 November 2024

Papers citing "Measuring short-form factuality in large language models"

5 / 5 papers shown

Title
aiXamine: Simplified LLM Safety and Security Fatih Deniz Dorde Popovic Yazan Boshmaf Euisuh Jeong M. Ahmad Sanjay Chawla Issa M. Khalil ELM 75 0 0 21 Apr 2025
Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark Enxin Song Wenhao Chai Weili Xu Jianwen Xie Yuxuan Liu Gaoang Wang 57 0 0 20 Apr 2025
Unity RL Playground: A Versatile Reinforcement Learning Framework for Mobile Robots Linqi Ye Rankun Li Xiaowen Hu Jiayi Li Boyang Xing Yan Peng Bin Liang 55 0 0 07 Mar 2025
Unbiased Evaluation of Large Language Models from a Causal Perspective Meilin Chen Jian Tian Liang Ma Di Xie Weijie Chen Jiang Zhu ALM ELM 52 0 0 10 Feb 2025
Trading Inference-Time Compute for Adversarial Robustness Wojciech Zaremba Evgenia Nitishinskaya Boaz Barak Stephanie Lin Sam Toyer ... Rachel Dias Eric Wallace Kai Y. Xiao Johannes Heidecke Amelia Glaese LRM AAML 85 15 0 31 Jan 2025