ToolTalk: Evaluating Tool-Usage in a Conversational Setting

ToolTalk: Evaluating Tool-Usage in a Conversational Setting

15 November 2023

Papers citing "ToolTalk: Evaluating Tool-Usage in a Conversational Setting"

16 / 16 papers shown

Title
FamilyTool: A Multi-hop Personalized Tool Use Benchmark Yuxin Wang Yiran Guo Y. Zheng Zhangyue Yin S. Chen Jie Yang Jiajun Chen Xuanjing Huang Xipeng Qiu 24 0 0 09 Apr 2025
Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models Mengsong Wu Tong Zhu Han Han Xiang Zhang Wenbiao Shao Wenliang Chen LRM 37 1 0 21 Mar 2025
ToolDial: Multi-turn Dialogue Generation Method for Tool-Augmented Language Models Jeonghoon Shim Gyuhyeon Seo Cheongsu Lim Yohan Jo 36 4 0 01 Mar 2025
From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents Xinyi Mou Xuanwen Ding Qi He Liang Wang Jingcong Liang ... L. Sun Jiayu Lin Jie Zhou Xuanjing Huang Zhongyu Wei LLMAG LM&Ro AI4CE 77 11 0 04 Dec 2024
MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models Pei Wang Yanan Wu Zekun Wang J. Liu Xiaoshuai Song ... Ge Zhang Hangyu Guo Zhaoxiang Zhang Wenbo Su Bo Zheng ELM 29 0 0 15 Oct 2024
Sparse Rewards Can Self-Train Dialogue Agents B. Lattimer Varun Gangal Ryan McDonald Yi Yang LLMAG 14 2 0 06 Sep 2024
Tool Learning with Large Language Models: A Survey Changle Qu Sunhao Dai Xiaochi Wei Hengyi Cai Shuaiqiang Wang Dawei Yin Jun Xu Jirong Wen LLMAG 31 77 0 28 May 2024
AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents Christopher Rawles Sarah Clinckemaillie Yifan Chang Jonathan Waltz Gabrielle Lau ... Daniel Toyama Robert Berry Divya Tyamagundlu Timothy Lillicrap Oriana Riva LLMAG 53 44 0 23 May 2024
CACTUS: Chemistry Agent Connecting Tool-Usage to Science Andrew D. McNaughton Gautham Ramalaxmi Agustin Kruel C. Knutson R. Varikoti Neeraj Kumar 37 6 0 02 May 2024
From Persona to Personalization: A Survey on Role-Playing Language Agents Jiangjie Chen Xintao Wang Rui Xu Siyu Yuan Yikai Zhang ... Caiyu Hu Siye Wu Scott Ren Ziquan Fu Yanghua Xiao 50 72 0 28 Apr 2024
Frontier AI Ethics: Anticipating and Evaluating the Societal Impacts of Generative Agents Seth Lazar SILM 21 1 0 10 Apr 2024
API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs Kinjal Basu Ibrahim Abdelaziz Subhajit Chaudhury Soham Dan M. Crouse Asim Munawar Sadhana Kumaravel Vinod Muthusamy Pavan Kapanipathi Luis A. Lastras 40 15 0 23 Feb 2024
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 208 2,413 0 06 Oct 2022
Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering Fengbin Zhu Wenqiang Lei Chao Wang Jianming Zheng Soujanya Poria Tat-Seng Chua RALM 198 214 0 04 Jan 2021
STAR: A Schema-Guided Dialog Dataset for Transfer Learning Johannes E. M. Mosig Shikib Mehri Thomas Kober 89 42 0 22 Oct 2020
MLQA: Evaluating Cross-lingual Extractive Question Answering Patrick Lewis Barlas Oğuz Ruty Rinott Sebastian Riedel Holger Schwenk ELM 239 489 0 16 Oct 2019