A Comprehensive Evaluation of Tool-Assisted Generation Strategies

A Comprehensive Evaluation of Tool-Assisted Generation Strategies

16 October 2023

Jonathan Herzig

Papers citing "A Comprehensive Evaluation of Tool-Assisted Generation Strategies"

10 / 10 papers shown

Title
WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large Language Models Kangyun Ning Yisong Su Xueqiang Lv Yuanzhe Zhang Jian Liu Kang Liu Jinan Xu ELM LLMAG 18 2 0 02 Jul 2024
TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools Avi Caciularu Alon Jacovi Eyal Ben-David Sasha Goldshtein Tal Schuster Jonathan Herzig G. Elidan Amir Globerson LMTD 22 3 0 05 Jun 2024
Tool Learning with Large Language Models: A Survey Changle Qu Sunhao Dai Xiaochi Wei Hengyi Cai Shuaiqiang Wang Dawei Yin Jun Xu Jirong Wen LLMAG 31 77 0 28 May 2024
A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains Alon Jacovi Yonatan Bitton Bernd Bohnet Jonathan Herzig Or Honovich Michael Tseng Michael Collins Roee Aharoni Mor Geva LRM 24 18 0 01 Feb 2024
Efficient Tool Use with Chain-of-Abstraction Reasoning Silin Gao Jane Dwivedi-Yu Ping Yu X. Tan Ramakanth Pasunuru O. Yu. Golovneva Koustuv Sinha Asli Celikyilmaz Antoine Bosselut Tianlu Wang LRM 11 19 0 30 Jan 2024
GPQA: A Graduate-Level Google-Proof Q&A Benchmark David Rein Betty Li Hou Asa Cooper Stickland Jackson Petty Richard Yuanzhe Pang Julien Dirani Julian Michael Samuel R. Bowman AI4MH ELM 11 433 0 20 Nov 2023
Rethinking with Retrieval: Faithful Large Language Model Inference Hangfeng He Hongming Zhang Dan Roth KELM LRM 135 151 0 31 Dec 2022
Mind's Eye: Grounded Language Model Reasoning through Simulation Ruibo Liu Jason W. Wei S. Gu Te-Yen Wu Soroush Vosoughi Claire Cui Denny Zhou Andrew M. Dai ReLM LRM 106 78 0 11 Oct 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies Mor Geva Daniel Khashabi Elad Segal Tushar Khot Dan Roth Jonathan Berant RALM 242 460 0 06 Jan 2021