Title
TUMS: Enhancing Tool-use Abilities of LLMs with Multi-structure Handlers Aiyao He Sijia Cui Shuai Xu Yanna Wang Bo Xu 24 0 0 13 May 2025
TRAIL: Trace Reasoning and Agentic Issue Localization Darshan Deshpande Varun Gangal Hersh Mehta Jitin Krishnan Anand Kannappan Rebecca Qian 9 0 0 13 May 2025
ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution X. Huang Weiwen Liu Xingshan Zeng Y. Huang Xinlong Hao ... Yirong Zeng Chuhan Wu Yasheng Wang R. Tang Defu Lian KELM 26 0 0 12 May 2025
AgentXploit: End-to-End Redteaming of Black-Box AI Agents Zhun Wang Vincent Siu Zhe Ye Tianneng Shi Yuzhou Nie Xuandong Zhao Chenguang Wang Wenbo Guo Dawn Song LLMAG AAML 31 0 0 09 May 2025
Advancing and Benchmarking Personalized Tool Invocation for LLMs X. Huang Yuefeng Huang W. Liu Xingshan Zeng Y. Wang Ruiming Tang Hong Xie Defu Lian 45 0 0 07 May 2025
VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making Jake Grigsby Yuke Zhu Michael S Ryoo Juan Carlos Niebles OffRL VLM 31 0 0 06 May 2025
NGENT: Next-Generation AI Agents Must Integrate Multi-Domain Abilities to Achieve Artificial General Intelligence Zhicong Li Hangyu Mao Jiangjin Yin Mingzhe Xing Zhiwei Xu Yuanxing Zhang Yang Xiao 29 0 0 30 Apr 2025
CarbonCall: Sustainability-Aware Function Calling for Large Language Models on Edge Devices Varatheepan Paramanayakam Andreas Karatzas Iraklis Anagnostopoulos Dimitrios Stamoulis 34 0 0 29 Apr 2025
Prompt Injection Attack to Tool Selection in LLM Agents Jiawen Shi Zenghui Yuan Guiyao Tie Pan Zhou Neil Zhenqiang Gong Lichao Sun LLMAG 51 0 0 28 Apr 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025
When2Call: When (not) to Call Tools Hayley Ross Ameya Sunil Mahabaleshwarkar Yoshi Suhara 92 0 0 26 Apr 2025
RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models Bang An Shiyue Zhang Mark Dredze 54 0 0 25 Apr 2025
Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning Shaokun Zhang Yi Dong Jieyu Zhang Jan Kautz Bryan Catanzaro Andrew Tao Qingyun Wu Zhiding Yu Guilin Liu LLMAG OffRL KELM LRM 86 0 0 25 Apr 2025
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant Lei Shen Xiaoyu Shen 50 0 0 25 Apr 2025
Symbolic Representation for Any-to-Any Generative Tasks J. Chen Xiaoye Zhu Y. Wang Tianyang Liu Xinhui Chen ... Yifei Ke J. Liu Yiwen Yuan Julian McAuley Li Li DiffM 36 0 0 24 Apr 2025
A Survey of AI Agent Protocols Y. Yang Huacan Chai Y. Song S. Qi Muning Wen ... Gaowei Chang W. Liu Ying Wen Yong Yu W. Zhang LLMAG 59 1 0 23 Apr 2025
a1: Steep Test-time Scaling Law via Environment Augmented Generation Lingrui Mei Shenghua Liu Yiwei Wang Baolong Bi Yuyao Ge Jun Wan Yurong Wu Xueqi Cheng LRM 20 0 0 20 Apr 2025
TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials Bofei Zhang Zirui Shang Zhi Gao Wang Zhang Rui Xie Xiaojian Ma Tao Yuan Xinxiao Wu Song-Chun Zhu Qing Li LLMAG 35 1 0 17 Apr 2025
ToolRL: Reward is All Tool Learning Needs Cheng Qian Emre Can Acikgoz Qi He Hongru Wang X. Chen Dilek Hakkani-Tür Gökhan Tür Heng Ji OffRL LRM 25 3 0 16 Apr 2025
Teaching Large Language Models to Reason through Learning and Forgetting Tianwei Ni Allen Nie Sapana Chaudhary Yao Liu Huzefa Rangwala Rasool Fakoor ReLM CLL LRM 41 0 0 15 Apr 2025
GraphicBench: A Planning Benchmark for Graphic Design with Language Agents Dayeon Ki Tianyi Zhou Marine Carpuat Gang Wu Puneet Mathur Viswanathan Swaminathan LLMAG LM&Ro 48 0 0 15 Apr 2025
Reimagining Urban Science: Scaling Causal Inference with Large Language Models Yutong Xia Ao Qu Yunhan Zheng Yihong Tang Dingyi Zhuang ... Cathy Wu R. Zimmermann Lijun Sun Roger Zimmermann Jinhua Zhao AI4CE 53 0 0 15 Apr 2025
Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning Can Jin Hongwu Peng Qixin Zhang Yujin Tang Dimitris N. Metaxas Tong Che LLMAG LRM 54 2 0 14 Apr 2025
Orchestrating Agents and Data for Enterprise: A Blueprint Architecture for Compound AI Eser Kandogan Nikita Bhutani Dan Zhang Rafael Li Chen Sairam Gurajada Estevam R. Hruschka AIFin 34 0 0 10 Apr 2025
FamilyTool: A Multi-hop Personalized Tool Use Benchmark Yuxin Wang Yiran Guo Y. Zheng Zhangyue Yin S. Chen Jie Yang Jiajun Chen Xuanjing Huang Xipeng Qiu 24 0 0 09 Apr 2025
Hogwild! Inference: Parallel LLM Generation via Concurrent Attention Gleb Rodionov Roman Garipov Alina Shutova George Yakushev Vage Egiazarian Anton Sinitsin Denis Kuznedelev Dan Alistarh LRM 27 1 0 08 Apr 2025
FEABench: Evaluating Language Models on Multiphysics Reasoning Ability N. Mudur Hao Cui Subhashini Venugopalan Paul Raccuglia M. Brenner Peter C. Norgaard LLMAG ELM LRM 38 0 0 08 Apr 2025
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models Minki Kang Jongwon Jeong Jaewoong Cho ALM LRM 41 2 0 07 Apr 2025
A Desideratum for Conversational Agents: Capabilities, Challenges, and Future Directions Emre Can Acikgoz Cheng Qian Hongru Wang Vardhan Dongre X. Chen Heng Ji Dilek Hakkani-Tür Gökhan Tür LM&Ro ELM 43 1 0 07 Apr 2025
Select Me! When You Need a Tool: A Black-box Text Attack on Tool Selection Liuji Chen Hao Gao Jinghao Zhang Qiang Liu Shu Wu Liang Wang AAML 21 0 0 07 Apr 2025
Building LLM Agents by Incorporating Insights from Computer Systems Yapeng Mi Zhi Gao Xiaojian Ma Qing Li LLMAG 36 0 0 06 Apr 2025
Efficient Evaluation of Large Language Models via Collaborative Filtering Xu-Xiang Zhong Chao Yi Han-Jia Ye 21 0 0 05 Apr 2025
JarvisIR: Elevating Autonomous Driving Perception with Intelligent Image Restoration Yunlong Lin Zixu Lin Haoyu Chen Panwang Pan C. Li Sixiang Chen Yeying Jin W. J. Li Xinghao Ding 25 1 0 05 Apr 2025
SLOs-Serve: Optimized Serving of Multi-SLO LLMs Siyuan Chen Zhipeng Jia S. Khan Arvind Krishnamurthy Phillip B. Gibbons 21 1 0 05 Apr 2025
How Social is It? A Benchmark for LLMs' Capabilities in Multi-user Multi-turn Social Agent Tasks Yusen Wu Junwu Xiong Xiaotie Deng LLMAG 36 0 0 04 Apr 2025
Stochastic Optimization with Optimal Importance Sampling Liviu Aolaritei Bart P. G. Van Parys H. Lam Michael I. Jordan 33 0 0 04 Apr 2025
Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions Peijie Yu Yifan Yang J. Li Zelong Zhang Haorui Wang Xiao Feng Feng Zhang LLMAG 97 0 0 03 Apr 2025
ToolACE-R: Tool Learning with Adaptive Self-Refinement Xingshan Zeng W. Liu X. Huang Zezhong Wang Lingzhi Wang ... Y. Wang Lifeng Shang Xin Jiang Ruiming Tang Q. Liu CLL 50 0 0 02 Apr 2025
DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models S. Jung Donghun Lee Shinbok Lee Gaeun Seo Daniel Lee Byeongil Ko Junrae Cho Kihyun Kim EungGyun Kim M. Shin 36 0 0 02 Apr 2025
On the Robustness of Agentic Function Calling Ella Rabinovich Ateret Anaby-Tavor LLMAG 50 0 0 01 Apr 2025
Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents Shuo Ren Pu Jian Zhenjiang Ren Chunlin Leng Can Xie Jiajun Zhang LLMAG AI4CE 53 0 0 31 Mar 2025
Factored Agents: Decoupling In-Context Learning and Memorization for Robust Tool Use Nicholas Roth Christopher Hidey Lucas Spangher William Arnold Chang Ye Nick Masiewicki Jinoo Baek Peter Grabowski Eugene Ie LLMAG 48 0 0 29 Mar 2025
OmniNova:A General Multimodal Agent Framework Pengfei Du LLMAG 47 0 0 25 Mar 2025
AgentRxiv: Towards Collaborative Autonomous Research Samuel Schmidgall Michael Moor 52 2 0 23 Mar 2025
Building Resource-Constrained Language Agents: A Korean Case Study on Chemical Toxicity Information Hojun Cho Donghu Kim S. Yang Chan Lee Hunjoo Lee Jaegul Choo 54 1 0 22 Mar 2025
A-IDE : Agent-Integrated Denoising Experts Uihyun Cho Namhun Kim 32 0 0 21 Mar 2025
Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models Mengsong Wu Tong Zhu Han Han Xiang Zhang Wenbiao Shao Wenliang Chen LRM 40 1 0 21 Mar 2025
Survey on Evaluation of LLM-based Agents Asaf Yehudai Lilach Eden Alan Li Guy Uziel Yilun Zhao Roy Bar-Haim Arman Cohan Michal Shmueli-Scheuer LLMAG ELM Presented at ResearchTrend Connect \| LLMAG on 07 May 2025 93 5 0 20 Mar 2025
Understanding the Generalization of In-Context Learning in Transformers: An Empirical Study Xingxuan Zhang Haoran Wang Jiansheng Li Yuan Xue Shikai Guan Renzhe Xu Hao Zou Han Yu Peng Cui 45 0 0 19 Mar 2025
Measuring AI Ability to Complete Long Tasks Thomas Kwa Ben West Joel Becker Amy Deng Katharyn Garcia ... Lucas Jun Koba Sato H. Wijk Daniel M. Ziegler Elizabeth Barnes Lawrence Chan ELM 69 6 0 18 Mar 2025