Language Models can Solve Computer Tasks

30 March 2023

Geunwoo Kim

Pierre Baldi

Stephen Marcus McAleer

LLMAG

LM&Ro

ArXiv PDF HTML

Papers citing "Language Models can Solve Computer Tasks"

50 / 256 papers shown

Title
True Knowledge Comes from Practice: Aligning LLMs with Embodied Environments via Reinforcement Learning Weihao Tan Wentao Zhang Shanqi Liu Longtao Zheng Xinrun Wang Bo An OffRL 31 16 0 25 Jan 2024
VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks Jing Yu Koh Robert Lo Lawrence Jang Vikram Duvvur Ming Chong Lim Po-Yu Huang Graham Neubig Shuyan Zhou Ruslan Salakhutdinov Daniel Fried 20 0 0 24 Jan 2024
Meta-Prompting: Enhancing Language Models with Task-Agnostic Scaffolding Mirac Suzgun Adam Tauman Kalai KELM LRM LLMAG ReLM 38 63 0 23 Jan 2024
Gradable ChatGPT Translation Evaluation Hui Jiao Bei Peng Lu Zong Xiaojun Zhang Xinwei Li 28 1 0 18 Jan 2024
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang Zhiyong Wu LLMAG 165 137 0 17 Jan 2024
Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives Wenqi Zhang Yongliang Shen Linjuan Wu Qiuying Peng Jun Wang Y. Zhuang Weiming Lu LRM LLMAG 24 37 0 04 Jan 2024
GPT-4V(ision) is a Generalist Web Agent, if Grounded Boyuan Zheng Boyu Gou Jihyung Kil Huan Sun Yu-Chuan Su MLLM VLM LLMAG 41 205 0 03 Jan 2024
NPHardEval: Dynamic Benchmark on Reasoning Ability of Large Language Models via Complexity Classes Lizhou Fan Wenyue Hua Lingyao Li Haoyang Ling Yongfeng Zhang LRM 20 46 0 22 Dec 2023
ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation Difei Gao Lei Ji Zechen Bai Mingyu Ouyang Peiran Li ... Peiyi Wang Xiangwu Guo Hengxu Wang Luowei Zhou Mike Zheng Shou LLMAG 12 21 0 20 Dec 2023
CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update Zhi Gao Yuntao Du Xintong Zhang Xiaojian Ma Wenjuan Han Song-Chun Zhu Qing Li LLMAG VLM 26 21 0 18 Dec 2023
ProTIP: Progressive Tool Retrieval Improves Planning R. Anantha Bortik Bandyopadhyay Anirudh Kashi Sayantan Mahinder Andrew W Hill Srinivas Chappidi 19 6 0 16 Dec 2023
LLM as OS, Agents as Apps: Envisioning AIOS, Agents and the AIOS-Agent Ecosystem Yingqiang Ge Yujie Ren Wenyue Hua Shuyuan Xu Juntao Tan Yongfeng Zhang LLMAG 12 27 0 06 Dec 2023
Releasing the CRaQAn (Coreference Resolution in Question-Answering): An open-source dataset and dataset creation methodology using instruction-following models Rob Grzywinski Joshua DÁrcy Rob Naidoff Ashish Shukla Alex Browne Ren Gibbons Brinnae Bent 11 0 0 27 Nov 2023
FlowZero: Zero-Shot Text-to-Video Synthesis with LLM-Driven Dynamic Scene Syntax Yu Lu Linchao Zhu Hehe Fan Yi Yang VGen DiffM 20 13 0 27 Nov 2023
Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents Zhuosheng Zhang Yao Yao Aston Zhang Xiangru Tang Xinbei Ma ... Yiming Wang Mark B. Gerstein Rui Wang Gongshen Liu Hai Zhao LLMAG LM&Ro LRM 31 51 0 20 Nov 2023
LLMs cannot find reasoning errors, but can correct them given the error location Gladys Tyen Hassan Mansoor Victor Carbune Peter Chen Tony Mak LRM 11 70 0 14 Nov 2023
Towards Reasoning in Large Language Models via Multi-Agent Peer Review Collaboration Zhenran Xu Senbao Shi Baotian Hu Jindi Yu Dongfang Li Min Zhang Yuxiang Wu LRM LLMAG ALM 58 19 0 14 Nov 2023
Prompt Engineering a Prompt Engineer Qinyuan Ye Maxamed Axmed Reid Pryzant Fereshte Khani VLM LLMAG LRM 19 28 0 09 Nov 2023
Human-Centered Planning Yuliang Li Nitin Kamra Ruta Desai A. Halevy 11 1 0 08 Nov 2023
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves Yihe Deng Weitong Zhang Zixiang Chen Quanquan Gu LRM 22 72 0 07 Nov 2023
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion Yiduo Guo Zekai Zhang Yaobo Liang Dongyan Zhao Duan Nan ELM 13 14 0 03 Nov 2023
WebWISE: Web Interface Control and Sequential Exploration with Large Language Models Heyi Tao TV Sethuraman Michal Shlapentokh-Rothman Derek Hoiem LLMAG 48 4 0 24 Oct 2023
AllTogether: Investigating the Efficacy of Spliced Prompt for Web Navigation using Large Language Models Jiarun Liu Wentao Hu Chunhong Zhang 12 2 0 20 Oct 2023
ToolChain: Efficient Action Space Navigation in Large Language Models with A Search Yuchen Zhuang Xiang Chen Tong Yu Saayan Mitra Victor S. Bursztyn Ryan A. Rossi Somdeb Sarkhel Chao Zhang LLMAG 29 52 0 20 Oct 2023
AgentTuning: Enabling Generalized Agent Abilities for LLMs Aohan Zeng Mingdao Liu Rui Lu Bowen Wang Xiao Liu Yuxiao Dong Jie Tang LM&MA ALM LLMAG 10 156 0 19 Oct 2023
LLaMA Rider: Spurring Large Language Models to Explore the Open World Yicheng Feng Yuxuan Wang Jiazheng Liu Sipeng Zheng Zongqing Lu LLMAG LRM 11 15 0 13 Oct 2023
A Zero-Shot Language Agent for Computer Control with Structured Reflection Tao Li Gang Li Zhiwei Deng Bryan Wang Yang Li LM&Ro LLMAG 49 23 0 12 Oct 2023
Can Large Language Models Really Improve by Self-critiquing Their Own Plans? Karthik Valmeekam Matthew Marquez Subbarao Kambhampati LRM 27 84 0 12 Oct 2023
LLM for SoC Security: A Paradigm Shift Dipayan Saha Shams Tarek Katayoon Yahyaei S. Saha Jingbo Zhou M. Tehranipoor Farimah Farahmandi 54 41 0 09 Oct 2023
Recurrent Neural Language Models as Probabilistic Finite-state Automata Anej Svete Ryan Cotterell 23 2 0 08 Oct 2023
CodeTransOcean: A Comprehensive Multilingual Benchmark for Code Translation Weixiang Yan Yuchen Tian Yunzhe Li Qian Chen Wen Wang 18 35 0 08 Oct 2023
Reinforced UI Instruction Grounding: Towards a Generic UI Task Automation API Zhizheng Zhang Wenxuan Xie Xiaoyi Zhang Yan Lu 21 10 0 07 Oct 2023
SteP: Stacked LLM Policies for Web Actions Paloma Sodhi S. Branavan Yoav Artzi Ryan McDonald LLMAG 14 26 0 05 Oct 2023
Large Language Models Cannot Self-Correct Reasoning Yet Jie Huang Xinyun Chen Swaroop Mishra Huaixiu Steven Zheng Adams Wei Yu Xinying Song Denny Zhou ReLM LRM 6 415 0 03 Oct 2023
Large Language Models as Analogical Reasoners Michihiro Yasunaga Xinyun Chen Yujia Li Panupong Pasupat J. Leskovec Percy Liang Ed H. Chi Denny Zhou ReLM LRM 13 73 0 03 Oct 2023
SmartPlay: A Benchmark for LLMs as Intelligent Agents Yue Wu Xuan Tang Tom Michael Mitchell Yuanzhi Li ELM LLMAG 19 60 0 02 Oct 2023
Motif: Intrinsic Motivation from Artificial Intelligence Feedback Martin Klissarov P. DÓro Shagun Sodhani Roberta Raileanu Pierre-Luc Bacon Pascal Vincent Amy Zhang Mikael Henaff LRM LLMAG 16 54 0 29 Sep 2023
Reason for Future, Act for Now: A Principled Framework for Autonomous LLM Agents with Provable Sample Efficiency Zhihan Liu Hao Hu Shenao Zhang Hongyi Guo Shuqi Ke Boyi Liu Zhaoran Wang LLMAG LRM 21 33 0 29 Sep 2023
Suspicion-Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT-4 Jiaxian Guo Bo Yang Paul D. Yoo Bill Yuchen Lin Yusuke Iwasawa Yutaka Matsuo LLMAG 13 40 0 29 Sep 2023
Teach AI How to Code: Using Large Language Models as Teachable Agents for Programming Education Hyoungwook Jin Seonghee Lee Hyun Joon Shin Juho Kim LLMAG 19 49 0 25 Sep 2023
LASER: LLM Agent with State-Space Exploration for Web Navigation Kaixin Ma Hongming Zhang Hongwei Wang Xiaoman Pan Wenhao Yu Dong Yu LLMAG 19 38 0 15 Sep 2023
Large Language Models as Optimizers Chengrun Yang Xuezhi Wang Yifeng Lu Hanxiao Liu Quoc V. Le Denny Zhou Xinyun Chen ODL 19 369 0 07 Sep 2023
Cognitive Architectures for Language Agents T. Sumers Shunyu Yao Karthik Narasimhan Thomas L. Griffiths LLMAG LM&Ro 34 150 0 05 Sep 2023
Exploiting Language Models as a Source of Knowledge for Cognitive Agents James R. Kirk Robert E. Wray John E. Laird ELM 24 11 0 05 Sep 2023
Confucius: Iterative Tool Learning from Introspection Feedback by Easy-to-Difficult Curriculum Shen Gao Zhengliang Shi Minghang Zhu Bowen Fang Xin Xin Pengjie Ren Zhumin Chen Jun Ma Zhaochun Ren LLMAG CLL 27 35 0 27 Aug 2023
Planning with Logical Graph-based Language Model for Instruction Generation Fan Zhang Kebing Jin H. Zhuo LRM 32 2 0 26 Aug 2023
A Survey on Large Language Model based Autonomous Agents Lei Wang Chengbang Ma Xueyang Feng Zeyu Zhang Hao-ran Yang ... Xu Chen Yankai Lin Wayne Xin Zhao Zhewei Wei Ji-Rong Wen LLMAG AI4CE LM&Ro 39 1,088 0 22 Aug 2023
Graph of Thoughts: Solving Elaborate Problems with Large Language Models Maciej Besta Nils Blach Aleš Kubíček Robert Gerstenberger Michal Podstawski ... Joanna Gajda Tomasz Lehmann H. Niewiadomski Piotr Nyczyk Torsten Hoefler LRM AI4CE LM&Ro 56 585 0 18 Aug 2023
AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation Qingyun Wu Gagan Bansal Jieyu Zhang Yiran Wu Beibin Li ... Jiale Liu Ahmed Hassan Awadallah Ryen W. White Doug Burger Chi Wang LLMAG AI4CE 48 264 0 16 Aug 2023
Forward-Backward Reasoning in Large Language Models for Mathematical Verification Weisen Jiang Han Shi L. Yu Zheng Liu Yu Zhang Zhenguo Li James T. Kwok LRM 32 25 0 15 Aug 2023