Title
Embracing Trustworthy Brain-Agent Collaboration as Paradigm Extension for Intelligent Assistive Technologies Yankai Chen Xinni Zhang Yifei Zhang Yangning Li Henry Peng Zou Chunyu Miao Weizhi Zhang Xue Liu Philip S. Yu 125 1 0 25 Oct 2025
Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework Nils Dycke Iryna Gurevych LRM 160 2 0 29 Aug 2025
LLM-Based Human-Agent Collaboration and Interaction Systems: A Survey Henry Peng Zou Wei-Chieh Huang Yaozu Wu Yankai Chen Chunyu Miao ... Yongbin Li Dongyuan Li Dongyuan Li Xue Liu Philip S. Yu LLMAG LM&Ro LM&MA 842 3 0 01 May 2025
Large Language Models for Code Generation: A Comprehensive Survey of Challenges, Techniques, Evaluation, and Applications Nam Huynh Beiyu Lin LM&MA 353 16 0 03 Mar 2025
Agentic AI Needs a Systems Theory Erik Miehling Karthikeyan N. Ramamurthy Kush R. Varshney Matthew D Riemer Djallel Bouneffouf ... P. Sattigeri Dennis L. Wei Ambrish Rawat Jasmina Gajcin Werner Geyer 369 17 0 28 Feb 2025
Human-in-the-loop or AI-in-the-loop? Automate or Collaborate?AAAI Conference on Artificial Intelligence (AAAI), 2024 S. Natarajan Saurabh Mathur Sahil Sidheekh Wolfgang Stammer Kristian Kersting 307 30 0 18 Dec 2024
RLEF: Grounding Code LLMs in Execution Feedback with Reinforcement Learning Jonas Gehring Kunhao Zheng Jade Copet Vegard Mella Taco Cohen Gabriel Synnaeve LLMAG 211 76 0 02 Oct 2024
HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale Huy N. Phan Phong X. Nguyen P. Nguyen Nghi D. Q. Bui LLMAG 341 31 0 09 Sep 2024
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters Charlie Snell Jaehoon Lee Kelvin Xu Aviral Kumar LRM 594 1,255 0 06 Aug 2024
LLM Roleplay: Simulating Human-Chatbot Interaction Hovhannes Tamoyan Hendrik Schuff Iryna Gurevych 260 17 0 04 Jul 2024
LLM Critics Help Catch LLM Bugs Nat McAleese Rai Michael Pokorny Juan Felipe Cerón Uribe Evgenia Nitishinskaya Maja Trebacz Jan Leike ALM LRM 229 120 0 28 Jun 2024
A Critical Study of What Code-LLMs (Do Not) Learn Abhinav Anand Shweta Verma Krishna Narasimhan Mira Mezini 259 5 0 17 Jun 2024
Understanding Hallucinations in Diffusion Models through Mode Interpolation Sumukh K. Aithal Pratyush Maini Zachary Chase Lipton J. Zico Kolter DiffM 339 60 0 13 Jun 2024
PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences Daiwei Chen Yi Chen Aniket Rege Ramya Korlakai Vinayak 261 36 0 12 Jun 2024
A Survey on Large Language Models for Code Generation Juyong Jiang Fan Wang Jiasi Shen Sungju Kim Sunghun Kim 494 477 0 01 Jun 2024
Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools Varun Magesh Faiz Surani Matthew Dahl Mirac Suzgun Christopher D. Manning Mark A. Lemley HILM ELM AILaw 179 189 0 30 May 2024
AI Alignment with Changing and Influenceable Reward Functions Micah Carroll Davis Foote Anand Siththaranjan Stuart J. Russell Anca Dragan 155 41 0 28 May 2024
Aligning LLM Agents by Learning Latent Preference from User Edits Ge Gao Alexey Taymanov Eduardo Salinas Paul Mineiro Dipendra Kumar Misra LLMAG 275 47 0 23 Apr 2024
MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory Ali Modarressi Abdullatif Köksal Ayyoob Imani Mohsen Fayyaz Hinrich Schütze KELM 561 22 0 17 Apr 2024
$$\texttt{LM}^\texttt{2}$: A Simple Society of Language Models Solves Complex Reasoning$ $\texttt{LM}^\texttt{2}$ : A Simple Society of Language Models Solves Complex ReasoningConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Gurusha Juneja Subhabrata Dutta Tanmoy Chakraborty ReLM LRM 147 5 0 02 Apr 2024
Can large language models explore in-context?Neural Information Processing Systems (NeurIPS), 2024 Akshay Krishnamurthy Keegan Harris Dylan J. Foster Cyril Zhang Aleksandrs Slivkins LM&Ro LLMAG LRM 554 52 0 22 Mar 2024
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL Yifei Zhou Andrea Zanette Jiayi Pan Sergey Levine Aviral Kumar 289 121 0 29 Feb 2024
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers Qintong Li Leyang Cui Xueliang Zhao Lingpeng Kong Wei Bi LRM 303 104 0 29 Feb 2024
Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment Rui Yang Xiaoman Pan Feng Luo Delin Qu Han Zhong Dong Yu Jianshu Chen 449 117 0 15 Feb 2024
Preference-Conditioned Language-Guided AbstractionIEEE/ACM International Conference on Human-Robot Interaction (HRI), 2024 Andi Peng Andreea Bobu Belinda Z. Li T. Sumers Ilia Sucholutsky Nishanth Kumar Thomas Griffiths Julie A. Shah 211 12 0 05 Feb 2024
TravelPlanner: A Benchmark for Real-World Planning with Language Agents Jian Xie Kai Zhang Jiangjie Chen Tinghui Zhu Renze Lou Yuandong Tian Yanghua Xiao Yu-Chuan Su LLMAG LM&Ro 294 281 0 02 Feb 2024
LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks Subbarao Kambhampati Kaya Stechly L. Guan Mudit Verma Kaya Stechly Siddhant Bhambri Lucas Saldyt Anil Murthy LRM 494 168 0 02 Feb 2024
A Survey of Reinforcement Learning from Human Feedback Timo Kaufmann Paul Weng Viktor Bengs Eyke Hüllermeier OffRL 222 262 0 22 Dec 2023
Towards Trustworthy AI Software Development Assistance Daniel Maninger Krishna Narasimhan Mira Mezini 190 5 0 14 Dec 2023
Frugal LMs Trained to Invoke Symbolic Solvers Achieve Parameter-Efficient Arithmetic ReasoningAAAI Conference on Artificial Intelligence (AAAI), 2023 Subhabrata Dutta Joykirat Singh Ishan Pandey Sunny Manchanda Soumen Chakrabarti Tanmoy Chakraborty ReLM LRM 186 6 0 09 Dec 2023
Eliciting Human Preferences with Language Models Belinda Z. Li Alex Tamkin Noah D. Goodman Jacob Andreas RALM 249 72 0 17 Oct 2023
CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modulesInternational Conference on Learning Representations (ICLR), 2023 Hung Le Hailin Chen Amrita Saha Akash Gokul Doyen Sahoo Shafiq Joty LRM 308 58 0 13 Oct 2023
Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond Liang Chen Yichi Zhang Shuhuai Ren Haozhe Zhao Zefan Cai Yuchi Wang Peiyi Wang Tianyu Liu Baobao Chang LM&Ro LLMAG 386 55 0 03 Oct 2023
Cognitive Architectures for Language Agents T. Sumers Shunyu Yao Karthik Narasimhan Thomas Griffiths LLMAG LM&Ro 567 270 0 05 Sep 2023
A Survey on Large Language Model based Autonomous Agents Lei Wang Chengbang Ma Xueyang Feng Zeyu Zhang Hao-ran Yang ... Xu Chen Yankai Lin Wayne Xin Zhao Zhewei Wei Ji-Rong Wen LLMAG AI4CE LM&Ro 650 2,034 0 22 Aug 2023
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper Xander Davies Claudia Shi T. Gilbert Jérémy Scheurer ... Erdem Biyik Anca Dragan David M. Krueger Dorsa Sadigh Dylan Hadfield-Menell ALM OffRL 353 701 0 27 Jul 2023
ChatDev: Communicative Agents for Software DevelopmentAnnual Meeting of the Association for Computational Linguistics (ACL), 2023 Cheng Qian Wei Liu Hongzhang Liu Nuo Chen Yufan Dang ... Xin Cong Juyuan Xu Dahai Li Zhiyuan Liu Maosong Sun LLMAG 370 458 0 16 Jul 2023
Large Language ModelsCommunications of the ACM (CACM), 2023 Michael R Douglas LLMAG LM&MA 567 921 0 11 Jul 2023
RLTF: Reinforcement Learning from Unit Test Feedback Jiate Liu Yiqin Zhu Kaiwen Xiao Qiang Fu Xiao Han Wei Yang Deheng Ye OffRL 277 92 0 10 Jul 2023
Lost in the Middle: How Language Models Use Long ContextsTransactions of the Association for Computational Linguistics (TACL), 2023 Nelson F. Liu Kevin Lin John Hewitt Ashwin Paranjape Michele Bevilacqua Fabio Petroni Abigail Z. Jacobs RALM 531 2,531 0 06 Jul 2023
Supervised Pretraining Can Learn In-Context Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2023 Jonathan Lee Annie Xie Aldo Pacchiano Yash Chandak Chelsea Finn Ofir Nachum Emma Brunskill OffRL 308 117 0 26 Jun 2023
Let's Verify Step by StepInternational Conference on Learning Representations (ICLR), 2023 Hunter Lightman V. Kosaraju Yura Burda Harrison Edwards Bowen Baker Teddy Lee Jan Leike John Schulman Ilya Sutskever K. Cobbe ALM OffRL LRM 998 2,131 0 31 May 2023
CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model SocietyNeural Information Processing Systems (NeurIPS), 2023 Ge Li Hasan Hammoud Hani Itani Dmitrii Khizbullin Guohao Li SyDa ALM 557 900 0 31 Mar 2023
Cost-Effective Hyperparameter Optimization for Large Language Model Generation Inference Chi Wang Susan Liu Ahmed Hassan Awadallah 190 54 0 08 Mar 2023
Large Language Models can Implement Policy IterationNeural Information Processing Systems (NeurIPS), 2022 Ethan A. Brooks Logan Walls Richard L. Lewis Satinder Singh LM&Ro OffRL 354 25 0 07 Oct 2022
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2022 Hung Le Yue Wang Akhilesh Deepak Gotmare Silvio Savarese Guosheng Lin SyDa ALM 429 373 0 05 Jul 2022
How to talk so AI will learn: Instructions, descriptions, and autonomyNeural Information Processing Systems (NeurIPS), 2022 T. Sumers Robert D. Hawkins Mark K. Ho Thomas Griffiths Dylan Hadfield-Menell LM&Ro 451 26 0 16 Jun 2022
Large Language Models are Zero-Shot ReasonersNeural Information Processing Systems (NeurIPS), 2022 Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 1.3K 5,973 0 24 May 2022
Inferring Rewards from Language in ContextAnnual Meeting of the Association for Computational Linguistics (ACL), 2022 Jessy Lin Daniel Fried Dan Klein Anca Dragan LM&Ro 203 64 0 05 Apr 2022
Self-Consistency Improves Chain of Thought Reasoning in Language ModelsInternational Conference on Learning Representations (ICLR), 2022 Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 1.9K 5,363 0 21 Mar 2022