Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations

9 November 2023

Papers citing "Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations"

27 / 27 papers shown

Title
Evaluating the Goal-Directedness of Large Language Models Tom Everitt Cristina Garbacea Alexis Bellot Jonathan G. Richens Henry Papadatos Simeon Campos Rohin Shah ELM LM&MA LM&Ro LRM 68 0 0 16 Apr 2025
ADAPT: Actively Discovering and Adapting to Preferences for any Task Maithili Patel Xavier Puig Ruta Desai Roozbeh Mottaghi Sonia Chernova Joanne Truong Akshara Rai 36 0 0 05 Apr 2025
Navigating Rifts in Human-LLM Grounding: Study and Benchmark Omar Shaikh Hussein Mozannar Gagan Bansal Adam Fourney Eric Horvitz 71 2 0 18 Mar 2025
Positive-Unlabeled Diffusion Models for Preventing Sensitive Data Generation Hiroshi Takahashi Tomoharu Iwata Atsutoshi Kumagai Yuuki Yamanaka Tomoya Yamashita DiffM 65 0 0 05 Mar 2025
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model Jiani Zheng Lu Wang Fangkai Yang C. Zhang Lingrui Mei Wenjie Yin Qingwei Lin Dongmei Zhang Saravan Rajmohan Qi Zhang OffRL 56 2 0 26 Feb 2025
Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions Michael J.Q. Zhang W. Bradley Knox Eunsol Choi 48 3 0 17 Oct 2024
The Imperative of Conversation Analysis in the Era of LLMs: A Survey of Tasks, Techniques, and Trends Xinghua Zhang Haiyang Yu Yongbin Li Minzheng Wang Longze Chen Fei Huang 40 5 0 21 Sep 2024
AI-LieDar: Examine the Trade-off Between Utility and Truthfulness in LLM Agents Zhe Su Xuhui Zhou Sanketh Rangreji Anubha Kabra Julia Mendelsohn Faeze Brahman Maarten Sap LLMAG 95 2 0 13 Sep 2024
Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner Kenneth Li Yiming Wang Fernanda Viégas Martin Wattenberg 30 6 0 17 Jun 2024
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning Yuexiang Zhai Hao Bai Zipeng Lin Jiayi Pan Shengbang Tong ... Alane Suhr Saining Xie Yann LeCun Yi-An Ma Sergey Levine LLMAG LRM 36 56 0 16 May 2024
Human-AI Safety: A Descendant of Generative AI and Control Systems Safety Andrea V. Bajcsy J. F. Fisac 32 7 0 16 May 2024
Social Skill Training with Large Language Models Diyi Yang Caleb Ziems William B. Held Omar Shaikh Michael S. Bernstein John C. Mitchell LLMAG 43 8 0 05 Apr 2024
STaR-GATE: Teaching Language Models to Ask Clarifying Questions Chinmaya Andukuri Jan-Philipp Fränken Tobias Gerstenberg Noah D. Goodman SyDa LRM 35 31 0 28 Mar 2024
Is this the real life? Is this just fantasy? The Misleading Success of Simulating Social Interactions With LLMs Xuhui Zhou Zhe Su Tiwalayo Eisape Hyunwoo J. Kim Maarten Sap 34 37 0 08 Mar 2024
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL Yifei Zhou Andrea Zanette Jiayi Pan Sergey Levine Aviral Kumar 65 47 0 29 Feb 2024
Task-Oriented Dialogue with In-Context Learning Tom Bocklisch Thomas Werkmeister Daksh Varshneya Alan Nichol 37 6 0 19 Feb 2024
Suppressing Pink Elephants with Direct Principle Feedback Louis Castricato Nathan Lile Suraj Anand Hailey Schoelkopf Siddharth Verma Stella Biderman 58 9 0 12 Feb 2024
A Multi-Agent Conversational Recommender System Jiabao Fang Shen Gao Pengjie Ren Xiuying Chen Suzan Verberne Zhaochun Ren LLMAG 30 18 0 02 Feb 2024
From LLM to Conversational Agent: A Memory Enhanced Architecture with Fine-Tuning of Large Language Models Na Liu Liangyu Chen Xiaoyu Tian Wei Zou Kaijiang Chen Ming Cui LLMAG 33 28 0 05 Jan 2024
Towards Accurate Differential Diagnosis with Large Language Models Daniel J. McDuff M. Schaekermann Tao Tu Anil Palepu Amy Wang ... G. Corrado Yossi Matias Jacob Sunshine Alan Karthikesalingam Vivek Natarajan ELM LM&MA 29 73 0 30 Nov 2023
Intention and Context Elicitation with Large Language Models in the Legal Aid Intake Process Nick Goodson Rongfei Lu AILaw 15 4 0 22 Nov 2023
Grounding Gaps in Language Model Generations Omar Shaikh Kristina Gligorić Ashna Khetan Matthias Gerstgrasser Diyi Yang Dan Jurafsky 13 20 0 15 Nov 2023
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 225 500 0 28 Sep 2022
Defining and Characterizing Reward Hacking Joar Skalse Nikolaus H. R. Howe Dmitrii Krasheninnikov David M. Krueger 57 54 0 27 Sep 2022
Offline RL for Natural Language Generation with Implicit Language Q Learning Charles Burton Snell Ilya Kostrikov Yi Su Mengjiao Yang Sergey Levine OffRL 121 101 0 05 Jun 2022
Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems Sergey Levine Aviral Kumar George Tucker Justin Fu OffRL GP 329 1,951 0 04 May 2020
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 275 1,587 0 18 Sep 2019