WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in
the Wild

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

7 June 2024

Bill Yuchen Lin

Khyathi Raghavi Chandu

Faeze Brahman

Abhilasha Ravichander

Valentina Pyatkin

Yejin Choi

Papers citing "WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild"

5 / 55 papers shown

Title
SimPO: Simple Preference Optimization with a Reference-Free Reward Yu Meng Mengzhou Xia Danqi Chen 57 335 0 23 May 2024
DOLOMITES: Domain-Specific Long-Form Methodical Tasks Chaitanya Malaviya Priyanka Agrawal Kuzman Ganchev Pranesh Srinivasan Fantine Huot Jonathan Berant Mark Yatskar Dipanjan Das Mirella Lapata Chris Alberti 27 6 0 09 May 2024
WildChat: 1M ChatGPT Interaction Logs in the Wild Wenting Zhao Xiang Ren Jack Hessel Claire Cardie Yejin Choi Yuntian Deng 40 171 0 02 May 2024
Instruction Tuning for Large Language Models: A Survey Shengyu Zhang Linfeng Dong Xiaoya Li Sen Zhang Xiaofei Sun ... Jiwei Li Runyi Hu Tianwei Zhang Fei Wu Guoyin Wang LM&MA 16 524 0 21 Aug 2023
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022