PersonaGym: Evaluating Persona Agents and LLMs

PersonaGym: Evaluating Persona Agents and LLMs

25 July 2024

Henry Peng Zou

Shreyas Chaudhari

Tanmay Rajpurohit

Karthik Narasimhan

Vishvak Murahari

Papers citing "PersonaGym: Evaluating Persona Agents and LLMs"

10 / 10 papers shown

Title
A Survey on Large Language Model based Human-Agent Systems Henry Peng Zou Wei-Chieh Huang Yaozu Wu Yankai Chen Chunyu Miao ... Y. Li Yuwei Cao Dongyuan Li Renhe Jiang Philip S. Yu LLMAG LM&Ro LM&MA 79 0 0 01 May 2025
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models Bang Zhang Ruotian Ma Qingxuan Jiang Peisong Wang Jiaqi Chen ... Fanghua Ye Jian Li Yifan Yang Zhaopeng Tu Xiaolong Li LLMAG ELM ALM 95 25 1 01 May 2025
The potential -- and the pitfalls -- of using pre-trained language models as cognitive science theories Raj Sanjay Shah Sashank Varma LRM 86 0 0 22 Jan 2025
Beyond Browsing: API-Based Web Agents Yueqi Song Frank F. Xu Shuyan Zhou Graham Neubig 43 13 0 21 Oct 2024
PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation Ilya Gusev LLMAG 52 3 0 10 Sep 2024
DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity Xiaoyu Lin Xinkai Yu Ankit Aich Salvatore Giorgi Lyle Ungar ALM 30 0 0 30 Aug 2024
Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks Yue Zhou Henry Peng Zou Barbara Maria Di Eugenio Yang Zhang HILM LRM 37 1 0 01 Jul 2024
Exploring Changes in Nation Perception with Nationality-Assigned Personas in LLMs M. Kamruzzaman Gene Louis Kim 19 4 0 20 Jun 2024
Two Tales of Persona in LLMs: A Survey of Role-Playing and Personalization Yu-Min Tseng Yu-Chao Huang Teng-Yun Hsiao Yu-Ching Hsu Chao-Wei Huang Jia-Yin Foo Yun-Nung Chen LLMAG 243 63 0 03 Jun 2024
Character is Destiny: Can Large Language Models Simulate Persona-Driven Decisions in Role-Playing? Rui Xu Xintao Wang Jiangjie Chen Siyu Yuan Xinfeng Yuan Jiaqing Liang Zulong Chen Xiaoqing Dong Yanghua Xiao 63 3 0 18 Apr 2024