Language Models can Solve Computer Tasks

30 March 2023

Geunwoo Kim

Pierre Baldi

Stephen Marcus McAleer

LLMAG

LM&Ro

ArXiv PDF HTML

Papers citing "Language Models can Solve Computer Tasks"

50 / 256 papers shown

Title
BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents Zhiwei Liu Weiran Yao Jianguo Zhang Le Xue Shelby Heinecke ... Ran Xu P. Mùi Haiquan Wang Caiming Xiong Silvio Savarese LLMAG 21 81 0 11 Aug 2023
AgentBench: Evaluating LLMs as Agents Xiao Liu Hao Yu Hanchen Zhang Yifan Xu Xuanyu Lei ... Yu-Chuan Su Huan Sun Minlie Huang Yuxiao Dong Jie Tang ELM LLMAG 29 257 0 07 Aug 2023
TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage Jingqing Ruan Yihong Chen Bin Zhang Zhiwei Xu Tianpeng Bao ... Shiwei Shi Hangyu Mao Ziyue Li Xingyu Zeng Rui Zhao LLMAG LM&Ro 39 31 0 07 Aug 2023
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies Liangming Pan Michael Stephen Saxon Wenda Xu Deepak Nathani Xinyi Wang William Yang Wang KELM LRM 28 200 0 06 Aug 2023
Flows: Building Blocks of Reasoning and Collaborating AI Martin Josifoski Lars Klein Maxime Peyrard Nicolas Mario Baldwin Yifei Li ... Julian Paul Schnitzler Yuxing Yao Jiheng Wei Debjit Paul Robert West AI4CE 28 25 0 02 Aug 2023
Deception Abilities Emerged in Large Language Models Thilo Hagendorff LLMAG 23 73 0 31 Jul 2023
WebArena: A Realistic Web Environment for Building Autonomous Agents Shuyan Zhou Frank F. Xu Hao Zhu Xuhui Zhou Robert Lo ... Tianyue Ou Yonatan Bisk Daniel Fried Uri Alon Graham Neubig LLMAG 14 375 0 25 Jul 2023
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis Izzeddin Gur Hiroki Furuta Austin Huang Mustafa Safdari Yutaka Matsuo Douglas Eck Aleksandra Faust LM&Ro LLMAG 25 193 0 24 Jul 2023
How to Design and Deliver Courses for Higher Education in the AI Era: Insights from Exam Data Analysis A. Wazan I. Taj Abdulhadi Shoufan R. Laborde Rémi Venant ELM 22 1 0 22 Jul 2023
Selective Perception: Optimizing State Descriptions with Reinforcement Learning for Language Model Actors Kolby Nottingham Yasaman Razeghi Kyungmin Kim JB Lanier Pierre Baldi Roy Fox Sameer Singh 10 8 0 21 Jul 2023
Android in the Wild: A Large-Scale Dataset for Android Device Control Christopher Rawles Alice Li Daniel Rodriguez Oriana Riva Timothy Lillicrap LM&Ro 13 137 0 19 Jul 2023
Mini-Giants: "Small" Language Models and Open Source Win-Win Zhengping Zhou Lezhi Li Xinxi Chen Andy Li SyDa ALM MoE 24 5 0 17 Jul 2023
Exploring and Characterizing Large Language Models For Embedded System Development and Debugging Zachary Englhardt R. Li Dilini Nissanka Zhihan Zhang Girish Narayanswamy Joseph Breda Xin Liu Shwetak N. Patel Vikram Iyer 22 15 0 07 Jul 2023
Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models Sarah J. Zhang Samuel H. Florin Ariel N. Lee Eamon Niknafs Andrei Marginean ... Madeleine Udell Yoon Kim Tonio Buonassisi Armando Solar-Lezama Iddo Drori ELM 18 18 0 15 Jun 2023
Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control Longtao Zheng R. Wang Xinrun Wang Bo An LLMAG 9 56 0 13 Jun 2023
Large Language Models as Tax Attorneys: A Case Study in Legal Capabilities Emergence John J. Nay David Karamardian Sarah Lawsky Wenting Tao Meghana Moorthy Bhat Raghav Jain Aaron Travis Lee Jonathan H. Choi Jungo Kasai ELM AILaw 16 56 0 12 Jun 2023
Improving Knowledge Extraction from LLMs for Task Learning through Agent Analysis James R. Kirk R. Wray Peter Lindes John E. Laird LLMAG 28 3 0 11 Jun 2023
Large Language Models Are Semi-Parametric Reinforcement Learning Agents Danyang Zhang Lu Chen Situo Zhang Hongshen Xu Zihan Zhao Kai Yu LM&Ro KELM LLMAG 17 20 0 09 Jun 2023
Prompt Injection attack against LLM-integrated Applications Yi Liu Gelei Deng Yuekang Li Kailong Wang Zihao Wang ... Tianwei Zhang Yepang Liu Haoyu Wang Yanhong Zheng Yang Liu SILM 10 310 0 08 Jun 2023
Natural Language Commanding via Program Synthesis Apurva Gandhi Thong Q. Nguyen Huitian Jiao R. Steen Ameya Bhatawdekar 19 7 0 06 Jun 2023
From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces Peter Shaw Mandar Joshi James Cohan Jonathan Berant Panupong Pasupat Hexiang Hu Urvashi Khandelwal Kenton Lee Kristina Toutanova LLMAG LM&Ro 15 53 0 31 May 2023
Large Language Models as Tool Makers Tianle Cai Xuezhi Wang Tengyu Ma Xinyun Chen Denny Zhou LLMAG 32 182 0 26 May 2023
AdaPlanner: Adaptive Planning from Feedback with Language Models Haotian Sun Yuchen Zhuang Lingkai Kong Bo Dai Chao Zhang LLMAG 16 124 0 26 May 2023
On the Tool Manipulation Capability of Open-source Large Language Models Qiantong Xu Fenglu Hong B. Li Changran Hu Zheng Chen Jian Zhang LLMAG 19 68 0 25 May 2023
Gorilla: Large Language Model Connected with Massive APIs Shishir G. Patil Tianjun Zhang Xin Wang Joseph E. Gonzalez ELM CLL ALM SyDa 16 501 0 24 May 2023
AutoPlan: Automatic Planning of Interactive Decision-Making Tasks With Large Language Models Siqi Ouyang Lei Li LM&Ro LLMAG 12 8 0 24 May 2023
PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents Simeng Sun Y. Liu Shuohang Wang Chenguang Zhu Mohit Iyyer RALM LRM ReLM 20 51 0 23 May 2023
ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models Binfeng Xu Zhiyuan Peng Bowen Lei Subhabrata Mukherjee Yuchen Liu Dongkuan Xu KELM LLMAG LRM 16 90 0 23 May 2023
How Language Model Hallucinations Can Snowball Muru Zhang Ofir Press William Merrill Alisa Liu Noah A. Smith HILM LRM 78 246 0 22 May 2023
Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via Debate Boshi Wang Xiang Yue Huan Sun ELM LRM 19 58 0 22 May 2023
Multimodal Web Navigation with Instruction-Finetuned Foundation Models Hiroki Furuta Kuang-Huei Lee Ofir Nachum Yutaka Matsuo Aleksandra Faust S. Gu Izzeddin Gur LM&Ro 14 90 0 19 May 2023
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing Zhibin Gou Zhihong Shao Yeyun Gong Yelong Shen Yujiu Yang Nan Duan Weizhu Chen KELM LRM 31 350 0 19 May 2023
TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks Shubhra (Santu) Karmaker Dongji Feng 25 48 0 19 May 2023
Tree of Thoughts: Deliberate Problem Solving with Large Language Models Shunyu Yao Dian Yu Jeffrey Zhao Izhak Shafran Thomas L. Griffiths Yuan Cao Karthik Narasimhan LM&Ro LRM AI4CE 19 1,705 0 17 May 2023
Learning to Simulate Natural Language Feedback for Interactive Semantic Parsing Hao Yan Saurabh Srivastava Yintao Tai Sida I. Wang Wen-tau Yih Ziyu Yao 17 17 0 14 May 2023
Tool Learning with Foundation Models Yujia Qin Shengding Hu Yankai Lin Weize Chen Ning Ding ... Cheng Yang Tongshuang Wu Heng Ji Zhiyuan Liu Maosong Sun 14 196 0 17 Apr 2023
Low-code LLM: Graphical User Interface over Large Language Models Yuzhe Cai Shaoguang Mao Wenshan Wu Zehua Wang Yaobo Liang ... Ting Song Yan Xia Jonathan Tien Nan Duan Furu Wei 26 13 0 17 Apr 2023
Teaching Large Language Models to Self-Debug Xinyun Chen Maxwell Lin Nathanael Scharli Denny Zhou LRM 20 626 0 11 Apr 2023
Instruction Tuning with GPT-4 Baolin Peng Chunyuan Li Pengcheng He Michel Galley Jianfeng Gao SyDa ALM LM&MA 157 576 0 06 Apr 2023
Machine Psychology: Investigating Emergent Capabilities and Behavior in Large Language Models Using Psychological Methods Thilo Hagendorff LLMAG 21 72 0 24 Mar 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 206 2,232 0 22 Mar 2023
Reflexion: Language Agents with Verbal Reinforcement Learning Noah Shinn Federico Cassano Beck Labash A. Gopinath Karthik Narasimhan Shunyu Yao LLMAG KELM 11 1,070 0 20 Mar 2023
Foundation Models for Decision Making: Problems, Methods, and Opportunities Sherry Yang Ofir Nachum Yilun Du Jason W. Wei Pieter Abbeel Dale Schuurmans LM&Ro OffRL LRM AI4CE 90 148 0 07 Mar 2023
Mind's Eye: Grounded Language Model Reasoning through Simulation Ruibo Liu Jason W. Wei S. Gu Te-Yen Wu Soroush Vosoughi Claire Cui Denny Zhou Andrew M. Dai ReLM LRM 109 78 0 11 Oct 2022
Understanding HTML with Large Language Models Izzeddin Gur Ofir Nachum Yingjie Miao Mustafa Safdari Austin Huang Aakanksha Chowdhery Sharan Narang Noah Fiedel Aleksandra Faust AI4CE 130 69 0 08 Oct 2022
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 229 2,413 0 06 Oct 2022
Recitation-Augmented Language Models Zhiqing Sun Xuezhi Wang Yi Tay Yiming Yang Denny Zhou RALM 192 60 0 04 Oct 2022
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 225 495 0 28 Sep 2022
Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango Aman Madaan Amir Yazdanbakhsh LRM 141 115 0 16 Sep 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 4,048 0 24 May 2022