Dialogue Games for Benchmarking Language Understanding: Motivation, Taxonomy, Strategy

14 April 2023

Papers citing "Dialogue Games for Benchmarking Language Understanding: Motivation, Taxonomy, Strategy"

13 / 13 papers shown

Title
Playpen: An Environment for Exploring Learning Through Conversational Interaction Nicola Horst Davide Mazzaccara Antonia Schmidt Michael Sullivan Filippo Momentè ... Alexander Koller Oliver Lemon David Schlangen Mario Giulianelli Alessandro Suglia OffRL 32 0 0 11 Apr 2025
LLMs as Function Approximators: Terminology, Taxonomy, and Questions for Evaluation David Schlangen 25 1 0 18 Jul 2024
clembench-2024: A Challenging, Dynamic, Complementary, Multilingual Benchmark and Underlying Flexible Framework for LLMs as Multi-Action Agents Anne Beyer Kranti Chalamalasetti Sherzod Hakimov Brielen Madureira P. Sadler David Schlangen LLMAG 17 2 0 31 May 2024
Why Solving Multi-agent Path Finding with Large Language Model has not Succeeded Yet Weizhe Chen Sven Koenig B. Dilkina LM&Ro LLMAG AI4CE 55 16 0 08 Jan 2024
On General Language Understanding David Schlangen 22 1 0 27 Oct 2023
Scalable Multi-Robot Collaboration with Large Language Models: Centralized or Decentralized Systems? Yongchao Chen Jacob Arkin Yang Zhang Nicholas Roy Chuchu Fan LLMAG LM&Ro 19 64 0 27 Sep 2023
RoCo: Dialectic Multi-Robot Collaboration with Large Language Models Zhao Mandi Shreeya Jain Shuran Song LM&Ro LLMAG 18 61 0 10 Jul 2023
Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as Conversational Agents Kranti Chalamalasetti Jana Gotze Sherzod Hakimov Brielen Madureira P. Sadler David Schlangen ELM ALM LLMAG 15 30 0 22 May 2023
Multimodal Conversational AI: A Survey of Datasets and Approaches Anirudh S. Sundar Larry Heck 30 29 0 13 May 2022
The slurk Interaction Server Framework: Better Data for Better Dialog Models Jana Gotze Maike Paetzel-Prusmann Wencke Liermann Tim Diekmann David Schlangen VLM 17 11 0 02 Feb 2022
TEACh: Task-driven Embodied Agents that Chat Aishwarya Padmakumar Jesse Thomason Ayush Shrivastava P. Lange Anjali Narayan-Chen Spandana Gella Robinson Piramithu Gökhan Tür Dilek Z. Hakkani-Tür LM&Ro 142 179 0 01 Oct 2021
MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks Cristian-Paul Bara Sky CH-Wang J. Chai 65 61 0 13 Sep 2021
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,927 0 20 Apr 2018