Imperfect also Deserves Reward: Multi-Level and Sequential Reward Modeling for Better Dialog Management

North American Chapter of the Association for Computational Linguistics (NAACL), 2021

10 April 2021

Papers citing "Imperfect also Deserves Reward: Multi-Level and Sequential Reward Modeling for Better Dialog Management"

7 / 7 papers shown

Towards Reward Fairness in RLHF: From a Resource Allocation PerspectiveAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

283

29 May 2025

CoD, Towards an Interpretable Medical Agent using Chain of Diagnosis

Xiang Wan

241

18 Jul 2024

Beyond Direct Diagnosis: LLM-based Multi-Specialist Agent Consultation for Automatic Diagnosis

309

29 Jan 2024

On Transforming Reinforcement Learning by Transformer: The Development TrajectoryIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Shengchao Hu

Li Shen

387

29 Dec 2022

Post-processing Networks: Method for Optimizing Pipeline Task-oriented Dialogue Systems using Reinforcement LearningSIGDIAL Conferences (SIGDIAL), 2022

Atsumoto Ohashi

Ryuichiro Higashinaka

OffRL

225

25 Jul 2022

Diaformer: Automatic Diagnosis via Symptoms Sequence GenerationAAAI Conference on Artificial Intelligence (AAAI), 2021

257

20 Dec 2021

Hierarchical Reinforcement Learning for Automatic Disease Diagnosis

Xuanjing Huang

246

29 Apr 2020