WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large
Language Models

WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large Language Models

2 July 2024

Yuanzhe Zhang

Kang Liu

Jinan Xu

Papers citing "WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large Language Models"

4 / 4 papers shown

Title
Can Tool-augmented Large Language Models be Aware of Incomplete Conditions? Seungbin Yang chaeHun Park Taehee Kim Jaegul Choo 44 2 0 18 Jun 2024
Tool Learning with Large Language Models: A Survey Changle Qu Sunhao Dai Xiaochi Wei Hengyi Cai Shuaiqiang Wang Dawei Yin Jun Xu Jirong Wen LLMAG 31 77 0 28 May 2024
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 208 2,413 0 06 Oct 2022
MLQA: Evaluating Cross-lingual Extractive Question Answering Patrick Lewis Barlas Oğuz Ruty Rinott Sebastian Riedel Holger Schwenk ELM 239 489 0 16 Oct 2019