WorkBench: a Benchmark Dataset for Agents in a Realistic Workplace Setting

1 May 2024

Papers citing "WorkBench: a Benchmark Dataset for Agents in a Realistic Workplace Setting"

1 / 1 papers shown

Title
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025