ScienceWorld: Is your Agent Smarter than a 5th Grader?

14 March 2022

Ruoyao Wang

Peter Alexander Jansen

Marc-Alexandre Côté

Prithviraj Ammanabrolu

Papers citing "ScienceWorld: Is your Agent Smarter than a 5th Grader?"

27 / 27 papers shown

Title
Architectural Precedents for General Agents using Large Language Models R. Wray James R. Kirk John E. Laird LLMAG AI4TS AI4CE 26 0 0 11 May 2025
Exploring Expert Failures Improves LLM Agent Tuning Li-Cheng Lan Andrew Bai Minhao Cheng Ruochen Wang Cho-Jui Hsieh LRM 147 0 0 17 Apr 2025
PaperBench: Evaluating AI's Ability to Replicate AI Research Giulio Starace Oliver Jaffe Dane Sherburn James Aung Jun Shern Chan ... Benjamin Kinsella Wyatt Thompson Johannes Heidecke Amelia Glaese Tejal Patwardhan ALM ELM 796 6 0 02 Apr 2025
VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms Seungwon Lim Sungwoong Kim Jihwan Yu Sungjae Lee Jiwan Chung Youngjae Yu 69 1 0 18 Mar 2025
A Generalist Hanabi Agent Arjun Vaithilingam Sudhakar Hadi Nekoei Mathieu Reymond Miao Liu Janarthanan Rajendran Sarath Chandar 144 0 0 17 Mar 2025
Generator-Assistant Stepwise Rollback Framework for Large Language Model Agent Xingzuo Li Kehai Chen Yunfei Long X. Bai Yong-mei Xu Min Zhang LRM LLMAG 79 1 0 04 Mar 2025
Neuro-Symbolic AI in 2024: A Systematic Review Brandon C. Colelough William Regli NAI 65 9 0 09 Jan 2025
AgentSquare: Automatic LLM Agent Search in Modular Design Space Yu Shang Yu Li Keyu Zhao Likai Ma J. Liu Fengli Xu Yong Li LLMAG 50 9 0 08 Oct 2024
AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents Petr Anokhin Nikita Semenov Artyom Sorokin Dmitry Evseev Mikhail Burtsev Evgeny Burnaev Evgeny Burnaev LLMAG RALM KELM 47 7 0 05 Jul 2024
AI Agents That Matter Sayash Kapoor Benedikt Stroebl Zachary S. Siegel Nitya Nadgir Arvind Narayanan 49 34 0 01 Jul 2024
EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms Siyu Yuan Kaitao Song Jiangjie Chen Xu Tan Dongsheng Li Deqing Yang LLMAG 55 14 0 20 Jun 2024
DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents Peter Alexander Jansen Marc-Alexandre Côté Tushar Khot Erin Bransom Bhavana Dalvi Mishra Bodhisattwa Prasad Majumder Oyvind Tafjord Peter Clark LLMAG 35 21 0 10 Jun 2024
Agent Planning with World Knowledge Model Shuofei Qiao Runnan Fang Ningyu Zhang Yuqi Zhu Xiang Chen Shumin Deng Yong-jia Jiang Pengjun Xie Fei Huang Huajun Chen LLMAG LM&Ro 81 14 0 23 May 2024
Towards Generalizable Agents in Text-Based Educational Environments: A Study of Integrating RL with LLMs Bahar Radmehr Adish Singla Tanja Kaser LLMAG AI4CE 38 6 0 29 Apr 2024
A Survey on Large Language Model-Based Game Agents Sihao Hu Tiansheng Huang Gaowen Liu Ramana Rao Kompella Gaowen Liu Selim Furkan Tekin Yichang Xu Zachary Yahn Ling Liu LLMAG LM&Ro AI4CE LM&MA 69 49 0 02 Apr 2024
Policy Improvement using Language Feedback Models Victor Zhong Dipendra Kumar Misra Xingdi Yuan Marc-Alexandre Côté 16 9 0 12 Feb 2024
Understanding the planning of LLM agents: A survey Xu Huang Weiwen Liu Xiaolong Chen Xingmei Wang Hao Wang Defu Lian Yasheng Wang Ruiming Tang Enhong Chen LLMAG LM&Ro 24 131 0 05 Feb 2024
AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents Chang Ma Junlei Zhang Zhihao Zhu Cheng Yang Yujiu Yang Yaohui Jin Zhenzhong Lan Lingpeng Kong Junxian He ELM LLMAG 32 54 0 24 Jan 2024
Sequential Planning in Large Partially Observable Environments guided by LLMs S. Paul LLMAG 21 0 0 12 Dec 2023
CLIN: A Continually Learning Language Agent for Rapid Task Adaptation and Generalization Bodhisattwa Prasad Majumder Bhavana Dalvi Peter Alexander Jansen Oyvind Tafjord Niket Tandon Li Zhang Chris Callison-Burch Peter Clark LRM LLMAG CLL 15 37 0 16 Oct 2023
Cognitive Architectures for Language Agents T. Sumers Shunyu Yao Karthik Narasimhan Thomas L. Griffiths LLMAG LM&Ro 42 151 0 05 Sep 2023
Language Decision Transformers with Exponential Tilt for Interactive Text Environments Nicolas Angelard-Gontier Pau Rodríguez López I. Laradji David Vazquez C. Pal OffRL 21 1 0 10 Feb 2023
DiffG-RL: Leveraging Difference between State and Common Sense Tsunehiko Tanaka Daiki Kimura Michiaki Tatsubori 14 0 0 29 Nov 2022
On Grounded Planning for Embodied Tasks with Language Models Bill Yuchen Lin Chengsong Huang Qian Liu Wenda Gu Sam Sommerer Xiang Ren LM&Ro 28 39 0 29 Aug 2022
TextWorldExpress: Simulating Text Games at One Million Steps Per Second Peter Alexander Jansen Marc-Alexandre Côté VLM LRM 24 6 0 01 Aug 2022
Situated Dialogue Learning through Procedural Environment Generation Prithviraj Ammanabrolu Renee Jia Mark O. Riedl 103 14 0 07 Oct 2021
Explaining Answers with Entailment Trees Bhavana Dalvi Peter Alexander Jansen Oyvind Tafjord Zhengnan Xie Hannah Smith Leighanna Pipatanangkura Peter Clark ReLM FAtt LRM 239 184 0 17 Apr 2021