v1v2v3 (latest)

WebGPT: Browser-assisted question-answering with human feedback

17 December 2021

Tyna Eloundou

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "WebGPT: Browser-assisted question-answering with human feedback"

50 / 1,125 papers shown

Self-Reflection in LLM Agents: Effects on Problem-Solving Performance

Matthew Renze

Erhan Guven

LRM LLMAG

343

05 May 2024

Stochastic RAG: End-to-End Retrieval-Augmented Generation through Expected Utility MaximizationAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2024

Hamed Zamani

Michael Bendersky

355

05 May 2024

Navigating WebAI: Training Agents to Complete Web Tasks with Large Language Models and Reinforcement Learning

Lucas-Andrei Thil

Mirela Popa

Gerasimos Spanakis

LLMAG

145

01 May 2024

Almanac Copilot: Towards Autonomous Electronic Health Record Navigation

...

354

30 Apr 2024

Towards a Search Engine for Machines: Unified Ranking for Multiple Retrieval-Augmented Large Language Models

Alireza Salemi

Hamed Zamani

424

30 Apr 2024

When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively

Tiziano Labruna

Jon Ander Campos

Gorka Azkune

229

30 Apr 2024

Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning

242

30 Apr 2024

DPO Meets PPO: Reinforced Token Optimization for RLHF

648

101

29 Apr 2024

GPT for Games: A Scoping Review (2020-2023)

305

27 Apr 2024

Reinforcement Retrieval Leveraging Fine-grained Feedback for Fact Checking News Claims with Black-Box LLM

Xuan Zhang

Wei Gao

LRM KELM

284

26 Apr 2024

REBEL: Reinforcement Learning via Regressing Relative Rewards

330

25 Apr 2024

Benchmarking Mobile Device Control Agents across Diverse Configurations

372

25 Apr 2024

Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs

Lorenzo Baraldi

386

23 Apr 2024

Aligning LLM Agents by Learning Latent Preference from User Edits

300

23 Apr 2024

From Matching to Generation: A Survey on Generative Information Retrieval

Xiaoxi Li

Jiajie Jin

Peitian Zhang

588

135

23 Apr 2024

Tree of Reviews: A Tree-based Dynamic Iterative Retrieval Framework for Multi-hop Question Answering

193

22 Apr 2024

Filtered Direct Preference Optimization

434

22 Apr 2024

Large Language Models as Test Case Generators: Performance Evaluation and Enhancement

Ke-Shen Li

Shijie Cao

LLMAG

188

20 Apr 2024

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

355

238

19 Apr 2024

MM-PhyRLHF: Reinforcement Learning Framework for Multimodal Physics Question-Answering

246

19 Apr 2024

Evaluating AI for Law: Bridging the Gap with Open-Source Solutions

155

18 Apr 2024

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Yizheng Huang

Jimmy X. Huang

3DV RALM

329

17 Apr 2024

Crossing the principle-practice gap in AI ethics with ethical problem-solving

215

16 Apr 2024

Navigating the Landscape of Large Language Models: A Comprehensive Review and Analysis of Paradigms and Fine-Tuning Strategies

Benjue Weng

LM&MA

287

13 Apr 2024

RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs

Bruno Castro da Silva

412

12 Apr 2024

Dataset Reset Policy Optimization for RLHF

461

12 Apr 2024

High-Dimension Human Value Representation in Large Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

625

11 Apr 2024

Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study

Alessandro Stolfo

RALM HILM

256

10 Apr 2024

Improving Language Model Reasoning with Self-motivated LearningInternational Conference on Language Resources and Evaluation (LREC), 2024

Wanxiang Che

239

10 Apr 2024

Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarksNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Dahua Lin

255

09 Apr 2024

Best-of-Venom: Attacking RLHF by Injecting Poisoned Preference Data

241

08 Apr 2024

Towards Understanding the Influence of Reward Margin on Preference Model Performance

Bowen Qin

Duanyu Feng

Xi Yang

144

07 Apr 2024

AI2Apps: A Visual IDE for Building LLM-based AI Agent Applications

141

07 Apr 2024

PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics

Zongxiong Chen

217

06 Apr 2024

Aligning Diffusion Models by Optimizing Human Utility

Shufan Li

Konstantinos Kallidromitis

Akash Gokul

Yusuke Kato

Kazuki Kozuka

312

06 Apr 2024

AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating AgentKnowledge Discovery and Data Mining (KDD), 2024

Xiao Liu

...

Yuxiao Dong

234

04 Apr 2024

Learning to Plan and Generate Text with CitationsAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

290

04 Apr 2024

Empowering Biomedical Discovery with AI AgentsCell (Cell), 2024

Shanghua Gao

Ada Fang

Yepeng Huang

Valentina Giunchiglia

Ayush Noori

Jonathan Richard Schwarz

270

224

03 Apr 2024

Asymptotics of Language Model AlignmentInternational Symposium on Information Theory (ISIT), 2024

251

02 Apr 2024

Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment

451

01 Apr 2024

Source-Aware Training Enables Knowledge Attribution in Language Models

Hao Peng

409

01 Apr 2024

Self-Demos: Eliciting Out-of-Demonstration Generalizability in Large Language Models

Xuanjing Huang

186

01 Apr 2024

Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization

418

31 Mar 2024

Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods

LLMAG KELM OffRL LM&Ro

414

156

30 Mar 2024

Understanding the Learning Dynamics of Alignment with Human Feedback

Shawn Im

Yixuan Li

ALM

453

27 Mar 2024

Don't Trust: Verify -- Grounding LLM Quantitative Reasoning with Autoformalization

198

26 Mar 2024

ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting

166

21 Mar 2024

Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflection

269

21 Mar 2024

A Roadmap Towards Automated and Regulated Robotic Systems

Yihao Liu

Mehran Armand

198

21 Mar 2024

RewardBench: Evaluating Reward Models for Language Modeling

Nathan Lambert

Valentina Pyatkin

Jacob Morrison

Lester James V. Miranda

Bill Yuchen Lin

...

Sachin Kumar

Tom Zick

Yejin Choi

Noah A. Smith

Hanna Hajishirzi

ALM

477

342

20 Mar 2024