LLMs achieve adult human performance on higher-order theory of mind
tasks

LLMs achieve adult human performance on higher-order theory of mind tasks

29 May 2024

John Oliver Siy

Benjamin Barnett

Michael McKibben

Tatenda Kanyere

Blaise Agüera y Arcas

Robin I. M. Dunbar

Papers citing "LLMs achieve adult human performance on higher-order theory of mind tasks"

9 / 9 papers shown

Title
Re-evaluating Theory of Mind evaluation in large language models Jennifer Hu Felix Sosa T. Ullman 33 0 0 28 Feb 2025
Codenames as a Benchmark for Large Language Models Matthew Stephenson Matthew Sidji Benoît Ronval LLMAG LRM ELM 95 1 0 16 Dec 2024
The LLM Language Network: A Neuroscientific Approach for Identifying Causally Task-Relevant Units Badr AlKhamissi Greta Tuckute Antoine Bosselut Martin Schrimpf MILM 22 8 0 04 Nov 2024
Generative Agents: Interactive Simulacra of Human Behavior J. Park Joseph C. O'Brien Carrie J. Cai Meredith Ringel Morris Percy Liang Michael S. Bernstein LM&Ro AI4CE 204 1,701 0 07 Apr 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 197 2,953 0 22 Mar 2023
The Debate Over Understanding in AI's Large Language Models Melanie Mitchell D. Krakauer ELM 70 196 0 14 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Multitask Prompted Training Enables Zero-Shot Task Generalization Victor Sanh Albert Webson Colin Raffel Stephen H. Bach Lintang Sutawika ... T. Bers Stella Biderman Leo Gao Thomas Wolf Alexander M. Rush LRM 203 1,651 0 15 Oct 2021
Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity Yao Lu Max Bartolo Alastair Moore Sebastian Riedel Pontus Stenetorp AILaw LRM 274 882 0 18 Apr 2021