v1v2v3 (latest)

WebGPT: Browser-assisted question-answering with human feedback

17 December 2021

Tyna Eloundou

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "WebGPT: Browser-assisted question-answering with human feedback"

50 / 1,125 papers shown

GUICourse: From General Vision Language Models to Versatile GUI Agents

...

421

17 Jun 2024

Humor in AI: Massive Scale Crowd-Sourced Preferences and Benchmarks for Cartoon CaptioningNeural Information Processing Systems (NeurIPS), 2024

...

Kevin Jamieson

Robert Nowak

273

15 Jun 2024

RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model

Jianwei Zhang

Fuchun Sun

Huazhe Xu

604

14 Jun 2024

PARSE-Ego4D: Personal Action Recommendation Suggestions for Egocentric Videos

310

14 Jun 2024

HelpSteer2: Open-source dataset for training top-performing reward models

Zhilin Wang

Yi Dong

Jimmy J. Zhang

Makesh Narsimhan Sreedhar

Oleksii Kuchaiev

AI4TS

315

171

12 Jun 2024

It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF

Xinyu Yang

344

12 Jun 2024

A Critical Look At Tokenwise Reward-Guided Text Generation

615

12 Jun 2024

OPTune: Efficient Online Preference Tuning

Tom Goldstein

Heng Huang

130

11 Jun 2024

Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis

420

11 Jun 2024

CAAP: Context-Aware Action Planning Prompting to Solve Computer Tasks with Front-End UI Only

120

11 Jun 2024

RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent

472

11 Jun 2024

The Impact of Quantization on Retrieval-Augmented Generation: An Analysis of Small LLMs

Mert Yazan

Suzan Verberne

F. Situmeang

184

10 Jun 2024

Information Theoretic Guarantees For Policy Alignment In Large Language Models

Youssef Mroueh

246

09 Jun 2024

The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

...

Sean Welleck

Graham Neubig

Moontae Lee

Kyungjae Lee

Minjoon Seo

ELM ALM LM&MA

432

09 Jun 2024

CaLM: Contrasting Large and Small Language Models to Verify Grounded GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Long T. Le

Nanyun Peng

295

08 Jun 2024

Benchmark Data Contamination of Large Language Models: A Survey

287

06 Jun 2024

Prototypical Reward Network for Data-Efficient RLHFAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Xiting Wang

272

06 Jun 2024

Tool-Planner: Task Planning with Clusters across Multiple Tools

372

06 Jun 2024

HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits

Tim Franzmeyer

Aleksandar Shtedritski

223

05 Jun 2024

Re-ReST: Reflection-Reinforced Self-Training for Language Agents

574

03 Jun 2024

BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling

477

02 Jun 2024

Aligning Language Models with Demonstrated Feedback

Diyi Yang

367

02 Jun 2024

Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models

429

31 May 2024

Transfer Q Star: Principled Decoding for LLM Alignment

Ming Yin

Mengdi Wang

Furong Huang

282

30 May 2024

Group Robust Preference Optimization in Reward-free RLHF

329

30 May 2024

TS-Align: A Teacher-Student Collaborative Framework for Scalable Iterative Finetuning of Large Language Models

Chen Zhang

Haizhou Li

214

30 May 2024

Learning to Discuss Strategically: A Case Study on One Night Ultimate Werewolf

440

30 May 2024

Dataflow-Guided Retrieval Augmentation for Repository-Level Code Completion

Wei Cheng

Yuhan Wu

Wei Hu

209

30 May 2024

Stress-Testing Capability Elicitation With Password-Locked Models

Ryan Greenblatt

Fabien Roger

Dmitrii Krasheninnikov

David M. Krueger

329

29 May 2024

A Multi-Source Retrieval Question Answering Framework Based on RAG

Shuhong Chen

125

29 May 2024

Offline Regularised Reinforcement Learning for Large Language Models Alignment

Pierre Harvey Richemond

Daniele Calandriello

...

Rishabh Joshi

Bilal Piot

239

29 May 2024

Evaluating the External and Parametric Knowledge Fusion of Large Language Models

...

Lifeng Shang

Qun Liu

Yong Liu

Ruiming Tang

KELM

250

29 May 2024

CtrlA: Adaptive Retrieval-Augmented Generation via Probe-Guided Control

286

29 May 2024

Aligning to Thousands of Preferences via System Message Generalization

327

28 May 2024

Tool Learning with Large Language Models: A Survey

Jun Xu

343

217

28 May 2024

M-RAG: Reinforcing Large Language Model Performance through Retrieval-Augmented Generation with Multiple Partitions

Zheng Wang

214

26 May 2024

Multi-Reference Preference Optimization for Large Language Models

196

26 May 2024

Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents

366

26 May 2024

AutoManual: Generating Instruction Manuals by LLM Agents via Interactive Environmental Learning

287

25 May 2024

Learning Generalizable Human Motion Generator with Reinforcement Learning

242

24 May 2024

Bayesian WeakS-to-Strong from Text Classification to Generation

387

24 May 2024

SoAy: A Solution-based LLM API-using Methodology for Academic Information Seeking

...

274

24 May 2024

SimPO: Simple Preference Optimization with a Reference-Free RewardNeural Information Processing Systems (NeurIPS), 2024

Yu Meng

Mengzhou Xia

Danqi Chen

543

791

23 May 2024

LIRE: listwise reward enhancement for preference alignment

Lei Zhang

208

22 May 2024

The CAP Principle for LLM Serving: A Survey of Long-Context Large Language Model Serving

Pai Zeng

Zhenyu Ning

Jieru Zhao

Mengwei Xu

298

18 May 2024

Generative Artificial Intelligence: A Systematic Review and Applications

301

231

17 May 2024

Rethinking ChatGPT's Success: Usability and Cognitive Behaviors Enabled by Auto-regressive LLMs' Prompting

Xinzhe Li

Ming Liu

251

17 May 2024

RLHF Workflow: From Reward Modeling to Online RLHF

Wei Xiong

Yingbo Zhou

Tong Zhang

274

209

13 May 2024

METAREFLECTION: Learning Instructions for Language Agents using Past ReflectionsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

164

13 May 2024

Value Augmented Sampling for Language Model Alignment and Personalization

Akash Srivastava

248

10 May 2024