Benchmarking the Spectrum of Agent Capabilities

14 September 2021

Papers citing "Benchmarking the Spectrum of Agent Capabilities"

50 / 88 papers shown

Title
DSADF: Thinking Fast and Slow for Decision Making Alex Zhihao Dou Dongfei Cui Jun Yan W. Wang Benteng Chen Haoming Wang Zeke Xie Shufei Zhang OffRL 38 0 0 13 May 2025
Explainable Reinforcement Learning Agents Using World Models Madhuri Singh Amal Alabdulkarim Gennie Mansi Mark O. Riedl 19 0 0 12 May 2025
WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents Siyu Zhou Tianyi Zhou Yijun Yang Guodong Long Deheng Ye Jing Jiang Chengqi Zhang LM&Ro 27 0 0 22 Apr 2025
PLANET: A Collection of Benchmarks for Evaluating LLMs' Planning Capabilities Haoming Li Zhaoliang Chen Jonathan Zhang Fei Liu LLMAG 35 0 0 21 Apr 2025
Intrinsically-Motivated Humans and Agents in Open-World Exploration Aly Lidayan Yuqing Du Eliza Kosoy Maria Rufova Pieter Abbeel Alison Gopnik 51 1 0 31 Mar 2025
World Model Agents with Change-Based Intrinsic Motivation Jeremias Ferrao Rafael Cunha OffRL MoE 52 0 0 26 Mar 2025
Thinking agents for zero-shot generalization to qualitatively novel tasks Thomas Miconi Kevin L McKee Yicong Zheng Jed McCaleb LRM AI4CE 46 0 0 25 Mar 2025
Learning Transformer-based World Models with Contrastive Predictive Coding Maxime Burchi Radu Timofte 67 0 0 06 Mar 2025
SENSEI: Semantic Exploration Guided by Foundation Models to Learn Versatile World Models Cansu Sancaktar Christian Gumbsch Andrii Zadaianchuk Pavel Kolev Georg Martius LM&Ro VLM 61 1 0 03 Mar 2025
Episodic Novelty Through Temporal Distance Y. Jiang Qihan Liu Yiqin Yang Xiaoteng Ma Dianyu Zhong ... Jun Yang Bin Liang Bo Xu Chongjie Zhang Qianchuan Zhao OffRL 30 0 0 28 Jan 2025
Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps Benjamin Ellis Matthew Jackson Andrei Lupu Alexander David Goldie Mattie Fellows Shimon Whiteson Jakob Foerster 77 0 0 22 Dec 2024
From Laws to Motivation: Guiding Exploration through Law-Based Reasoning and Rewards Ziyu Chen Zhiqing Xiao Xinbei Jiang Junbo Zhao 80 0 0 24 Nov 2024
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games Davide Paglieri Bartłomiej Cupiał Samuel Coward Ulyana Piterbarg Maciej Wolczyk ... Lerrel Pinto Rob Fergus Jakob Foerster Jack Parker-Holder Tim Rocktaschel LLMAG LRM 108 10 0 20 Nov 2024
Learning Hidden Subgoals under Temporal Ordering Constraints in Reinforcement Learning Duo Xu Faramarz Fekri OffRL 26 0 0 03 Nov 2024
Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks Michael T. Matthews Michael Beukman Chris Xiaoxuan Lu Jakob Foerster OffRL AI4CE 36 2 0 30 Oct 2024
SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning Hojoon Lee Dongyoon Hwang Donghu Kim Hyunseung Kim Jun Jet Tai K. Subramanian Peter R. Wurman Jaegul Choo Peter Stone Takuma Seno OffRL 62 6 0 13 Oct 2024
Mars: Situated Inductive Reasoning in an Open-World Environment Xiaojuan Tang Jiaqi Li Yitao Liang Song-chun Zhu Muhan Zhang Zilong Zheng LM&Ro LRM LLMAG 29 1 0 10 Oct 2024
Masked Generative Priors Improve World Models Sequence Modelling Capabilities Cristian Meo Mircea Lica Zarif Ikram Akihiro Nakano Vedant Shah Aniket Didolkar Dianbo Liu Anirudh Goyal Justin Dauwels OffRL 90 0 0 10 Oct 2024
Guided Stream of Search: Learning to Better Search with Language Models via Optimal Path Guidance Seungyong Moon Bumsoo Park Hyun Oh Song RALM AIFin 21 1 0 03 Oct 2024
Assessing the Zero-Shot Capabilities of LLMs for Action Evaluation in RL Eduardo Pignatelli Johan Ferret Tim Rockäschel Edward Grefenstette Davide Paglieri Samuel Coward Laura Toni 38 2 0 19 Sep 2024
Hackphyr: A Local Fine-Tuned LLM Agent for Network Security Environments M. Rigaki C. Catania Sebastian Garcia LLMAG 32 3 0 17 Sep 2024
LASP: Surveying the State-of-the-Art in Large Language Model-Assisted AI Planning Haoming Li Zhaoliang Chen Jonathan Zhang Fei Liu LM&Ro LLMAG LRM 44 4 0 03 Sep 2024
The Interpretability of Codebooks in Model-Based Reinforcement Learning is Limited Kenneth Eaton Jonathan C. Balloch Julia Kim Mark O. Riedl FAtt OffRL 31 0 0 28 Jul 2024
NAVIX: Scaling MiniGrid Environments with JAX Eduardo Pignatelli Jarek Liesen R. T. Lange Chris Xiaoxuan Lu Pablo Samuel Castro Laura Toni 37 3 0 28 Jul 2024
Enhancing Agent Learning through World Dynamics Modeling Zhiyuan Sun Haochen Shi Marc-Alexandre Côté Glen Berseth Xingdi Yuan Bang Liu 47 3 0 25 Jul 2024
LLM-Empowered State Representation for Reinforcement Learning Boyuan Wang Yun Qu Yuhang Jiang Jianzhun Shao Chang-rui Liu Wenming Yang Xiangyang Ji 32 7 0 18 Jul 2024
Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments Zoya Volovikova A. Skrynnik Petr Kuderov Aleksandr I. Panov LLMAG LM&Ro 38 0 0 12 Jul 2024
Can Learned Optimization Make Reinforcement Learning Less Difficult? Alexander David Goldie Chris Xiaoxuan Lu Matthew Jackson Shimon Whiteson Jakob N. Foerster 40 3 0 09 Jul 2024
Simplifying Deep Temporal Difference Learning Matteo Gallici Mattie Fellows Benjamin Ellis B. Pou Ivan Masmitja Jakob Foerster Mario Martin OffRL 57 14 0 05 Jul 2024
Improving Sample Efficiency of Reinforcement Learning with Background Knowledge from Large Language Models Fuxiang Zhang Junyou Li Yi-Chen Li Zongzhang Zhang Yang Yu Deheng Ye OffRL KELM 47 1 0 04 Jul 2024
Efficient World Models with Context-Aware Tokenization Vincent Micheli Eloi Alonso François Fleuret OffRL VLM 34 5 0 27 Jun 2024
IWISDM: Assessing instruction following in multimodal models at scale Xiaoxuan Lei Lucas Gomez Hao Yuan Bai P. Bashivan VLM 33 1 0 20 Jun 2024
World Models with Hints of Large Language Models for Goal Achieving Zeyuan Liu Ziyu Huan Xiyao Wang Jiafei Lyu Jian Tao Xiu Li Furong Huang Huazhe Xu LM&Ro LRM AI4CE 34 1 0 11 Jun 2024
Learning to Play Atari in a World of Tokens Pranav Agarwal Sheldon Andrews Samira Ebrahimi Kahou OffRL 28 0 0 03 Jun 2024
AgentKit: Flow Engineering with Graphs, not Coding Yue Wu Yewen Fan So Yeon Min Shrimai Prabhumoye Stephen Marcus McAleer Yonatan Bisk Ruslan Salakhutdinov Yuanzhi Li Tom Michael Mitchell AI4CE 41 0 0 17 Apr 2024
A Survey on Large Language Model-Based Game Agents Sihao Hu Tiansheng Huang Gaowen Liu Ramana Rao Kompella Gaowen Liu Selim Furkan Tekin Yichang Xu Zachary Yahn Ling Liu LLMAG LM&Ro AI4CE LM&MA 69 49 0 02 Apr 2024
EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents Abhaysinh Zala Jaemin Cho Han Lin Jaehong Yoon Mohit Bansal 34 13 0 18 Mar 2024
Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning Michael T. Matthews Michael Beukman Benjamin Ellis Mikayel Samvelyan Matthew Jackson Samuel Coward Jakob Foerster OffRL 29 24 0 26 Feb 2024
Emergence of In-Context Reinforcement Learning from Noise Distillation Ilya Zisman Vladislav Kurenkov Alexander Nikulin Viacheslav Sinii Sergey Kolesnikov OffRL 33 9 0 19 Dec 2023
XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX Alexander Nikulin Vladislav Kurenkov Ilya Zisman Artem Agarkov Viacheslav Sinii Sergey Kolesnikov 24 24 0 19 Dec 2023
Vision-Language Models as a Source of Rewards Kate Baumli Satinder Baveja Feryal M. P. Behbahani Harris Chan Gheorghe Comanici ... Yannick Schroecker Stephen Spencer Richie Steigerwald Luyu Wang Lei Zhang VLM LRM 37 26 0 14 Dec 2023
BEDD: The MineRL BASALT Evaluation and Demonstrations Dataset for Training and Benchmarking Agents that Solve Fuzzy Tasks Stephanie Milani Anssi Kanervisto Karolis Ramanauskas Sander Schulhoff Brandon Houghton Rohin Shah 21 6 0 05 Dec 2023
Harnessing Discrete Representations For Continual Reinforcement Learning Edan Meyer Adam White Marlos C. Machado OffRL 33 4 0 02 Dec 2023
LLM Augmented Hierarchical Agents Bharat Prakash Tim Oates T. Mohsenin 11 4 0 09 Nov 2023
Active Reasoning in an Open-World Environment Manjie Xu Guangyuan Jiang Weihan Liang Chi Zhang Yixin Zhu LLMAG LRM 10 10 0 03 Nov 2023
DreamSmooth: Improving Model-based Reinforcement Learning via Reward Smoothing Vint Lee Pieter Abbeel Youngwoon Lee 19 5 0 02 Nov 2023
AMAGO: Scalable In-Context Reinforcement Learning for Adaptive Agents Jake Grigsby Linxi Fan Yuke Zhu OffRL LM&Ro 33 10 0 15 Oct 2023
SmartPlay: A Benchmark for LLMs as Intelligent Agents Yue Wu Xuan Tang Tom Michael Mitchell Yuanzhi Li ELM LLMAG 27 63 0 02 Oct 2023
HarmonyDream: Task Harmonization Inside World Models Haoyu Ma Jialong Wu Ningya Feng Chenjun Xiao Dong Li Jianye Hao Jianmin Wang Mingsheng Long 33 7 0 30 Sep 2023
AdaRefiner: Refining Decisions of Language Models with Adaptive Feedback Wanpeng Zhang Zongqing Lu LLMAG 26 6 0 29 Sep 2023