Title
Benchmarking Failures in Tool-Augmented Language Models Eduardo Treviño Hugo Contant James Ngai Graham Neubig Zora Zhiruo Wang 59 0 0 18 Mar 2025
PLAY2PROMPT: Zero-shot Tool Instruction Optimization for LLM Agents via Tool Play Wei Fang Yang Zhang Kaizhi Qian James R. Glass Yada Zhu LLMAG 64 0 0 18 Mar 2025
Agents Play Thousands of 3D Video Games Zhongwen Xu Xianliang Wang Siyi Li Tao Yu Liang Wang Qiang Fu Wei Yang LM&Ro 41 0 0 17 Mar 2025
A Survey on the Optimization of Large Language Model-based Agents Shangheng Du Jiabao Zhao Jinxin Shi Zhentao Xie Xin Jiang Yanhong Bai Liang He LLMAG LM&Ro LM&MA 123 0 0 16 Mar 2025
Bridging Language Models and Financial Analysis Alejandro Lopez-Lira Jihoon Kwon Sangwoon Yoon Jy-yong Sohn Chanyeol Choi AIFin 36 0 0 14 Mar 2025
DarkBench: Benchmarking Dark Patterns in Large Language Models Esben Kran Hieu Minh "Jord" Nguyen Akash Kundu Sami Jawhar Jinsuk Park Mateusz Maria Jurewicz 45 1 0 13 Mar 2025
Attacking Multimodal OS Agents with Malicious Image Patches Lukas Aichberger Alasdair Paren Y. Gal Philip H. S. Torr Adel Bibi AAML 51 2 0 13 Mar 2025
Queueing, Predictions, and LLMs: Challenges and Open Problems Michael Mitzenmacher Rana Shahout AI4TS LRM 36 1 0 10 Mar 2025
Magnet: Multi-turn Tool-use Data Synthesis and Distillation via Graph Translation Fan Yin Zifeng Wang I-Hung Hsu Jun Yan Ke Jiang ... L. Le Kai-Wei Chang Chen-Yu Lee Hamid Palangi Tomas Pfister 52 2 0 10 Mar 2025
Alignment for Efficient Tool Calling of Large Language Models Hongshen Xu Zihan Wang Zichen Zhu Lei Pan Xingyu Chen L. Chen Kai Yu 44 0 0 09 Mar 2025
A Survey of Large Language Model Empowered Agents for Recommendation and Search: Towards Next-Generation Information Retrieval Yu Zhang Shutong Qiao Jiaqi Zhang Tzu-Heng Lin Chen Gao Y. Li LM&Ro LM&MA 84 0 0 07 Mar 2025
Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models Zhifei Xie Mingbao Lin Z. Liu Pengcheng Wu Shuicheng Yan Chunyan Miao AuLLM OffRL LRM 76 5 0 04 Mar 2025
Haste Makes Waste: Evaluating Planning Abilities of LLMs for Efficient and Feasible Multitasking with Time Constraints Between Actions Zirui Wu Xiao Liu Jiayi Li Lingpeng Kong Yansong Feng 42 1 0 04 Mar 2025
PersonaX: A Recommendation Agent Oriented User Modeling Framework for Long Behavior Sequence Yunxiao Shi Wujiang Xu Zeqi Zhang Xing Zi Qiang Wu Min Xu 66 0 0 04 Mar 2025
MPO: Boosting LLM Agents with Meta Plan Optimization Weimin Xiong Yifan Song Qingxiu Dong Bingchan Zhao Feifan Song Xun Wang Sujian Li LLMAG 81 0 0 04 Mar 2025
ATLaS: Agent Tuning via Learning Critical Steps Zhixun Chen Ming Li Y. Huang Yali Du Meng Fang Tianyi Zhou 71 3 0 04 Mar 2025
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents Kunlun Zhu Hongyi Du Zhaochen Hong Xiaocheng Yang Shuyi Guo ... Zhenhailong Wang Cheng Qian Xiangru Tang Heng Ji Jiaxuan You LLMAG 66 4 0 03 Mar 2025
AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification Xuan Zhang Yongliang Shen Zhe Zheng Linjuan Wu Wenqi Zhang Yuchen Yan Qiuying Peng J. Wang Weiming Lu KELM 75 1 0 03 Mar 2025
Evaluating Personalized Tool-Augmented LLMs from the Perspectives of Personalization and Proactivity Yupu Hao Pengfei Cao Zhuoran Jin Huanxuan Liao Yubo Chen Kang Liu Jun Zhao LLMAG 69 1 0 02 Mar 2025
Instructor-Worker Large Language Model System for Policy Recommendation: a Case Study on Air Quality Analysis of the January 2025 Los Angeles Wildfires K. Gao Dening Lu Liangzhi Li Nan Chen Hongjie He Linlin Xu Jonathan Li 29 0 0 01 Mar 2025
Digital Player: Evaluating Large Language Models based Human-like Agent in Games J. T. Wang Kai Wang Shaojie Lin Runze Wu Bihan Xu ... Zhipeng Hu Z. Fan Le Li Tangjie Lyu Changjie Fan LLMAG ELM AI4CE 53 1 0 28 Feb 2025
Multi-Agent Verification: Scaling Test-Time Compute with Multiple Verifiers Shalev Lifshitz Sheila A. McIlraith Yilun Du LRM 44 4 0 27 Feb 2025
PEToolLLM: Towards Personalized Tool Learning in Large Language Models Qiancheng Xu Y. Li Heming Xia Fan Liu Min Yang Wenjie Li 62 0 0 26 Feb 2025
Kanana: Compute-efficient Bilingual Language Models Kanana LLM Team Yunju Bak Hojin Lee Minho Ryu Jiyeon Ham ... Daniel Lee Minchul Lee M. Lee Shinbok Lee Gaeun Seo 82 1 0 26 Feb 2025
GenTool: Enhancing Tool Generalization in Language Models through Zero-to-One and Weak-to-Strong Simulation Jie He Jennifer Neville Mengting Wan Longqi Yang Hui Liu Xiaofeng Xu Xia Song Jeff Z. Pan Pei Zhou LLMAG SyDa 58 0 0 26 Feb 2025
Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems Pierre Peigne-Lefebvre Mikolaj Kniejski Filip Sondej Matthieu David J. Hoelscher-Obermaier Christian Schroeder de Witt Esben Kran 43 3 0 26 Feb 2025
Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs Dayu Yang Tianyang Liu Daoan Zhang Antoine Simoulin Xiaoyi Liu ... Zhaopu Teng Xin Qian Grey Yang Jiebo Luo Julian McAuley ReLM OffRL LRM 81 3 0 26 Feb 2025
AgentRM: Enhancing Agent Generalization with Reward Modeling Yu Xia Jingru Fan Weize Chen Siyu Yan Xin Cong Zhong Zhang Y. Lu Yankai Lin Zhiyuan Liu Maosong Sun 49 1 0 25 Feb 2025
Textual-to-Visual Iterative Self-Verification for Slide Generation Yunqing Xu Xinbei Ma Jiyang Qiu Hai Zhao 60 0 0 24 Feb 2025
The Lottery LLM Hypothesis, Rethinking What Abilities Should LLM Compression Preserve? Zhenheng Tang Xiang Liu Qian Wang Peijie Dong Bingsheng He Xiaowen Chu Bo Li LRM 50 1 0 24 Feb 2025
MLGym: A New Framework and Benchmark for Advancing AI Research Agents Deepak Nathani Lovish Madaan Nicholas Roberts Nikolay Bashlykov Ajay Menon ... Tatiana Shavrina Jakob Foerster Yoram Bachrach William Yang Wang Roberta Raileanu LLMAG 78 7 0 21 Feb 2025
AgentStudio: A Toolkit for Building General Virtual Agents Longtao Zheng Zhiyuan Huang Zhenghai Xue Xinrun Wang Bo An Shuicheng Yan 75 14 0 17 Feb 2025
ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents Hao Kang Chenyan Xiong LLMAG 95 2 0 17 Feb 2025
MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling Yakun Zhu Shaohang Wei Xu Wang Kui Xue Xiaofan Zhang S. Zhang 51 1 0 17 Feb 2025
SMART: Self-Aware Agent for Tool Overuse Mitigation Cheng Qian Emre Can Acikgoz H. Wang X. Chen Avirup Sil Dilek Hakkani-Tür Gökhan Tür Heng Ji LLMAG KELM LRM 63 4 0 17 Feb 2025
Mimicking the Familiar: Dynamic Command Generation for Information Theft Attacks in LLM Tool-Learning System Ziyou Jiang Mingyang Li Guowei Yang Junjie Wang Yuekai Huang Zhiyuan Chang Qing Wang AAML 47 1 0 17 Feb 2025
HARBOR: Exploring Persona Dynamics in Multi-Agent Competition Kenan Jiang Li Xiong Fei Liu 47 0 0 17 Feb 2025
Divergent Thoughts toward One Goal: LLM-based Multi-Agent Collaboration System for Electronic Design Automation Haoyuan Wu Haisheng Zheng Zhuolun He Bei Yu 35 0 0 15 Feb 2025
Implicit Communication of Contextual Information in Human-Robot Collaboration Yan Zhang 34 0 0 09 Feb 2025
Self-Training Large Language Models for Tool-Use Without Demonstrations Ne Luo Aryo Pradipta Gema Xuanli He Emile van Krieken Pietro Lesci Pasquale Minervini LLMAG 64 1 0 09 Feb 2025
The AI Agent Index Stephen Casper Luke Bailey Rosco Hunter Carson Ezell Emma Cabalé ... Phillip J. K. Christoffersen A. Pinar Ozisik Rakshit Trivedi Dylan Hadfield-Menell Noam Kolt 66 4 0 03 Feb 2025
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning Yanfang Zhang Yiliu Sun Yibing Zhan Dapeng Tao Dacheng Tao Chen Gong LRM AI4CE LLMAG 82 2 0 28 Jan 2025
SyntheT2C: Generating Synthetic Data for Fine-Tuning Large Language Models on the Text2Cypher Task Ziije Zhong Linqing Zhong Zhaoze Sun Qingyun Jin Zengchang Qin Xiaofan Zhang 52 6 0 28 Jan 2025
PoAct: Policy and Action Dual-Control Agent for Generalized Applications Guozhi Yuan Y. Liu Jingli Yang Wei Jia Kai Lin Yansong Gao Shan He Zilin Ding H. Li LLMAG 35 0 0 13 Jan 2025
Generative AI for Cel-Animation: A Survey Yunlong Tang Junjia Guo Pinxin Liu Zhiyuan Wang Hang Hua ... Jing Bi Mingqian Feng X. Li Zeliang Zhang Chenliang Xu VGen 88 7 0 08 Jan 2025
NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models Han Han Tong Zhu Xiang Zhang Mengsong Wu Hao Xiong Wenliang Chen 30 0 0 08 Jan 2025
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use Junjie Ye Zhengyin Du Xuesong Yao Weijian Lin Yufei Xu ... Siyu Yuan Tao Gui Qi Zhang Xuanjing Huang Jiecao Chen 44 0 0 08 Jan 2025
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web Hiroki Furuta Yutaka Matsuo Aleksandra Faust Izzeddin Gur CLL 80 13 0 03 Jan 2025
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models Mahir Labib Dihan Md Tanvir Hassan Md Tanvir Parvez Md Hasebul Hasan Md Almash Alam Muhammad Aamir Cheema Mohammed Eunus Ali Md. Rizwan Parvez LRM ELM 22 1 0 03 Jan 2025
From Generalist to Specialist: A Survey of Large Language Models for Chemistry Yang Han Ziping Wan Lu Chen Kai Yu Xin Chen LM&MA 32 1 0 31 Dec 2024