Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges

19 May 2025

Papers citing "Rethinking Stateful Tool Use in Multi-Turn Dialogues: Benchmarks and Challenges"

3 / 3 papers shown

Title
VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications Wei He Yueqing Sun Hongyan Hao Xueyuan Hao Zhikang Xia ... X. Su Xiaodong Cai Xunliang Cai Yu Yang Yunke Zhao 0 0 0 30 Sep 2025
Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol Wei Ma Y. Yang Q. Hu Shi Ying Zhi Jin ... Zhenchang Xing Tianlin Li Junjie Shi Yang Liu Linxiao Jiang 24 0 0 28 Aug 2025
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities Jiarui Lu Thomas Holleis Yizhe Zhang Bernhard Aumayer Feng Nan ... Shen Ma Mengyu Li Guoli Yin Zirui Wang Ruoming Pang LLMAG ELM 181 67 0 08 Aug 2024