Title
Steering Large Language Models between Code Execution and Textual Reasoning Yongchao Chen Harsh Jhamtani Srinagesh Sharma Chuchu Fan Chi Wang LLMAG LRM 31 6 0 04 Oct 2024
Agent-Oriented Planning in Multi-Agent Systems Ao Li Yuexiang Xie Songze Li Fugee Tsung Bolin Ding Yaliang Li AIFin 58 5 0 03 Oct 2024
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents Hanrong Zhang Jingyuan Huang Kai Mei Yifei Yao Zhenting Wang Chenlu Zhan Hongwei Wang Yongfeng Zhang AAML LLMAG ELM 46 17 0 03 Oct 2024
CreDes: Causal Reasoning Enhancement and Dual-End Searching for Solving Long-Range Reasoning Problems using LLMs Kangsheng Wang Xiao Zhang Hao Liu Songde Han Huimin Ma Tianyu Hu LRM 41 5 0 02 Oct 2024
A Survey on Complex Tasks for Goal-Directed Interactive Agents Mareike Hartmann Alexander Koller LM&Ro LLMAG 32 0 0 27 Sep 2024
Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs Shadi Iskander Nachshon Cohen Zohar Karnin Ori Shapira Sofia Tolmach SyDa 21 0 0 24 Sep 2024
HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models Haoran Que Feiyu Duan Liqun He Yutao Mou Wangchunshu Zhou ... Ge Zhang Junran Peng Zhaoxiang Zhang Songyang Zhang Kai Chen LM&MA ELM VLM 43 11 0 24 Sep 2024
MOSS: Enabling Code-Driven Evolution and Context Management for AI Agents Ming Zhu Yi Zhou 31 2 0 24 Sep 2024
LLM With Tools: A Survey Zhuocheng Shen 28 8 0 24 Sep 2024
Automated test generation to evaluate tool-augmented LLMs as conversational AI agents Samuel Arcadinho David Aparicio Mariana Almeida 24 4 0 24 Sep 2024
SwiftDossier: Tailored Automatic Dossier for Drug Discovery with LLMs and Agents Gabriele Fossi Youssef Boulaimen Leila Outemzabet Nathalie Jeanray Stephane Gerart Sebastien Vachenc Joanna Giemza Salvatore Raieli 27 2 0 24 Sep 2024
SEAL: Suite for Evaluating API-use of LLMs Woojeong Kim Ashish Jagmohan Aditya Vempaty ELM ALM LLMAG 30 0 0 23 Sep 2024
ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback Qinzhuo Wu Wei Liu Jian Luan Bin Wang 45 5 0 23 Sep 2024
The Ability of Large Language Models to Evaluate Constraint-satisfaction in Agent Responses to Open-ended Requests Lior Madmoni Amir Zait Ilia Labzovsky Danny Karmon ELM 25 0 0 22 Sep 2024
Towards LifeSpan Cognitive Systems Yu Wang Chi Han Tongtong Wu Xiaoxin He Wangchunshu Zhou ... Zexue He Wei Wang Gholamreza Haffari Heng Ji Julian McAuley KELM CLL 83 1 0 20 Sep 2024
Towards Robust Automation of Surgical Systems via Digital Twin-based Scene Representations from Foundation Models Hao Ding Lalithkumar Seenivasan Hongchao Shu Grayson Byrd Han Zhang Pu Xiao Juan Antonio Barragan Russell H. Taylor Peter Kazanzides Mathias Unberath 32 5 0 19 Sep 2024
LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents Amine B. Hassouna Hana Chaari Ines Belhaj LLMAG 30 1 0 17 Sep 2024
TravelAgent: An AI Assistant for Personalized Travel Planning Aili Chen Xuyang Ge Ziquan Fu Yanghua Xiao Jiangjie Chen LLMAG 24 8 0 12 Sep 2024
xLAM: A Family of Large Action Models to Empower AI Agent Systems Jianguo Zhang Tian Lan Ming Zhu Zuxin Liu Thai Hoang ... Juan Carlos Niebles Shelby Heinecke Huan Wang Silvio Savarese Caiming Xiong ALM 30 2 0 05 Sep 2024
NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls Kinjal Basu Ibrahim Abdelaziz Kelsey Bradford M. Crouse Kiran Kate ... Yara Rizk Xin Wang Luis A. Lastras Pavan Kapanipathi Pavan Kapanipathi 31 7 0 04 Sep 2024
ToolACE: Winning the Points of LLM Function Calling Weiwen Liu X. Huang Xingshan Zeng Xinlong Hao Shuai Yu ... Xin Jiang Ruiming Tang Defu Lian Qun Liu Enhong Chen LLMAG 35 26 0 02 Sep 2024
TinyAgent: Function Calling at the Edge Lutfi Eren Erdogan Nicholas Lee Siddharth Jha Sehoon Kim Ryan Tabrizi Suhong Moon Coleman Hooper Gopala Anumanchipalli Kurt Keutzer Amir Gholami LLMAG 39 10 0 01 Sep 2024
Tool-Assisted Agent on SQL Inspection and Refinement in Real-World Scenarios Zhongyuan Wang Richong Zhang Zhijie Nie Jaein Kim 33 1 0 30 Aug 2024
AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems Chi-Min Chan Jianxuan Yu Weize Chen Chunyang Jiang Xinyu Liu Weijie Shi Zhiyuan Liu Wei Xue Yike Guo LLMAG 36 0 0 27 Aug 2024
Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment Kun Luo Minghao Qin Zheng Liu Shitao Xiao Jun Zhao Kang Liu 28 7 0 22 Aug 2024
DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework Zhifei Xie Daniel Tang Dingwei Tan Jacques Klein Tegawend F. Bissyand Saad Ezzini VGen 26 8 0 21 Aug 2024
AutoDirector: Online Auto-scheduling Agents for Multi-sensory Composition Minheng Ni Chenfei Wu Huaying Yuan Zhengyuan Yang Ming Gong Lijuan Wang Zicheng Liu Wangmeng Zuo Nan Duan VGen 25 0 0 21 Aug 2024
HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model Mengkang Hu Tianxing Chen Qiguang Chen Yao Mu Wenqi Shao Ping Luo LM&Ro LLMAG RALM 21 3 0 18 Aug 2024
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities Jiarui Lu Thomas Holleis Yizhe Zhang Bernhard Aumayer Feng Nan ... Shen Ma Mengyu Li Guoli Yin Zirui Wang Ruoming Pang LLMAG ELM 34 28 0 08 Aug 2024
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters Charlie Snell Jaehoon Lee Kelvin Xu Aviral Kumar LRM 58 422 0 06 Aug 2024
AppAgent v2: Advanced Agent for Flexible Mobile Interactions Yanda Li Chi Zhang Wanqi Yang Bin-Bin Fu Pei Cheng Xin Chen Ling Chen Yunchao Wei LLMAG LM&Ro 31 9 0 05 Aug 2024
Is Large Language Model Good at Database Knob Tuning? A Comprehensive Experimental Evaluation Yiyan Li Haoyang Li Zhao Pu Jing Zhang Xinyi Zhang Tao Ji Luming Sun Cuiping Li Hong Chen 21 0 0 05 Aug 2024
ExoViP: Step-by-step Verification and Exploration with Exoskeleton Modules for Compositional Visual Reasoning Y. Wang Alan Yuille Zhuowan Li Zilong Zheng LRM 32 2 0 05 Aug 2024
From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future Haolin Jin Linghan Huang Haipeng Cai Jun Yan Bo Li Huaming Chen 66 24 0 05 Aug 2024
Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval Yanfei Chen Jinsung Yoon Devendra Singh Sachan Qingze Wang Vincent Cohen-Addad M. Bateni Chen-Yu Lee Tomas Pfister 24 5 0 03 Aug 2024
Coalitions of Large Language Models Increase the Robustness of AI Agents Prattyush Mangal Carol Mak Theo Kanakis Timothy Donovan Dave Braines Edward Pyzer-Knapp 28 1 0 02 Aug 2024
Jailbreaking Text-to-Image Models with LLM-Based Agents Yingkai Dong Zheng Li Xiangtao Meng Ning Yu Shanqing Guo LLMAG 36 13 0 01 Aug 2024
AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation Mengkang Hu Yixiao Wang Can Xu Lingfeng Sun Chensheng Peng T. Hannagan Nicola Poerio Saravan Rajmohan LM&Ro LLMAG 60 14 0 01 Aug 2024
Tulip Agent -- Enabling LLM-Based Agents to Solve Tasks Using Large Tool Libraries Felix Ocker Daniel Tanneberg Julian Eggert Michael Gienger LLMAG LM&Ro VLM 42 3 0 31 Jul 2024
MindSearch: Mimicking Human Minds Elicits Deep AI Searcher Zehui Chen Kuikun Liu Qiuchen Wang Jiangning Liu Wenwei Zhang Kai Chen Feng Zhao LLMAG 64 18 0 29 Jul 2024
Collaborative Evolving Strategy for Automatic Data-Centric Development Xu Yang Haotian Chen Wenjun Feng Haoxue Wang Zeqi Ye Xinjie Shen Xiao Yang Shizhao Sun Weiqing Liu Jiang Bian 25 2 0 26 Jul 2024
Golden-Retriever: High-Fidelity Agentic Retrieval Augmented Generation for Industrial Knowledge Base Zhiyu An Xianzhong Ding Yen-Chun Fu Cheng-Chung Chu Yan Li Wan Du RALM 25 5 0 20 Jul 2024
FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking Zhuoer Wang Leonardo F. R. Ribeiro Alexandros Papangelis Rohan Mukherjee Tzu-Yen Wang Xinyan Zhao Arijit Biswas James Caverlee A. Metallinou 31 0 0 18 Jul 2024
Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems Tamer Abuelsaad Deepak Akkil Prasenjit Dey Ashish Jagmohan Aditya Vempaty Ravi Kokku 39 23 0 17 Jul 2024
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities To Eun Kim Alireza Salemi Andrew Drozdov Fernando Diaz Hamed Zamani 48 7 0 17 Jul 2024
BadRobot: Jailbreaking Embodied LLMs in the Physical World Hangtao Zhang Chenyu Zhu Xianlong Wang Ziqi Zhou Yichen Wang ... Shengshan Hu Leo Yu Zhang Aishan Liu Peijin Guo Leo Yu Zhang LM&Ro 40 6 0 16 Jul 2024
Speech-Copilot: Leveraging Large Language Models for Speech Processing via Task Decomposition, Modularization, and Program Generation Chun-Yi Kuan Chih-Kai Yang Wei-Ping Huang Ke-Han Lu Hung-yi Lee 39 5 0 13 Jul 2024
On Mitigating Code LLM Hallucinations with API Documentation Nihal Jain Robert Kwiatkowski Baishakhi Ray M. K. Ramanathan Varun Kumar 33 7 0 13 Jul 2024
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models Mengzhao Chen Wenqi Shao Peng Xu Jiahao Wang Peng Gao Kaipeng Zhang Yu Qiao Ping Luo MQ 34 21 0 10 Jul 2024
WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment Jiefu Ou Arda Uzunoglu Benjamin Van Durme Daniel Khashabi LM&Ro VGen 25 3 0 10 Jul 2024