Let's Verify Step by Step

International Conference on Learning Representations (ICLR), 2023

31 May 2023

ArXiv (abs)PDF HTML HuggingFace (10 upvotes)

Papers citing "Let's Verify Step by Step"

50 / 1,441 papers shown

RLHF Can Speak Many Languages: Unlocking Multilingual Preference Optimization for LLMs

Sara Hooker

247

02 Jul 2024

DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging

Tzu-Han Lin

Chen-An Li

Hung-yi Lee

Yun-Nung Chen

VLM ALM

139

01 Jul 2024

DynaThink: Fast or Slow? A Dynamic Decision-Making Framework for Large Language Models

Yan Zhang

Zuozhu Liu

Haizhou Li

138

01 Jul 2024

Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning

Aojun Zhou

Hongsheng Li

290

30 Jun 2024

Advancing Process Verification for Large Language Models via Tree-Based Preference Learning

Weiming Lu

226

29 Jun 2024

LiteSearch: Efficacious Tree Search for LLM

246

29 Jun 2024

Covert Malicious Finetuning: Challenges in Safeguarding LLM Adaptation

227

28 Jun 2024

The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models

Xinyi Chen

Baohao Liao

Jirui Qi

Panagiotis Eustratiadis

222

28 Jun 2024

Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

414

212

26 Jun 2024

ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback

313

25 Jun 2024

From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models

Sean Welleck

Ilia Kulikov

Zaid Harchaoui

374

110

24 Jun 2024

Task Oriented In-Domain Data Augmentation

Yeyun Gong

194

24 Jun 2024

On the Transformations across Reward Model, Parameter Update, and In-Context Prompt

...

Leyang Cui

232

24 Jun 2024

VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models

Yuxuan Wang

Yueqian Wang

Dongyan Zhao

Cihang Xie

Zilong Zheng

MLLM VLM

261

24 Jun 2024

CAVE: Controllable Authorship Verification Explanations

388

24 Jun 2024

Chain-of-Probe: Examining the Necessity and Accuracy of CoT Step-by-Step

Zezhong Wang

Xingshan Zeng

Weiwen Liu

Yufei Wang

Liangyou Li

Yasheng Wang

Lifeng Shang

Xin Jiang

Qun Liu

Kam-Fai Wong

LRM

255

23 Jun 2024

PORT: Preference Optimization on Reasoning Traces

331

23 Jun 2024

Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning

Chaojie Wang

Yanchen Deng

Zhiyi Lyu

Liang Zeng

Jujie He

Shuicheng Yan

Bo An

LRM ReLM

349

20 Jun 2024

LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback

Bofei Gao

Zefan Cai

Runxin Xu

Peiyi Wang

Ce Zheng

...

Chang Zhou

Wen Xiao

Junjie Hu

Tianyu Liu

Baobao Chang

LRM

341

20 Jun 2024

Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-ExpertsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Haoxiang Wang

Wei Xiong

Tengyang Xie

Han Zhao

Tong Zhang

296

302

18 Jun 2024

DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving

240

18 Jun 2024

OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI

Zengzhi Wang

...

Yuxiang Zheng

Shaoting Zhang

Dahua Lin

Yu Qiao

Pengfei Liu

ELM LRM

299

18 Jun 2024

Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner

Kenneth Li

Yiming Wang

Fernanda Viégas

Martin Wattenberg

268

17 Jun 2024

Nemotron-4 340B Technical Report

Nvidia

Bo Adler

Niket Agarwal

Ashwath Aithal

...

Jimmy Zhang

Jing Zhang

Vivienne Zhang

Yian Zhang

Chen Zhu

303

111

17 Jun 2024

GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation

Bo Zheng

185

17 Jun 2024

A Survey on Human Preference Learning for Large Language Models

Ruili Jiang

Kehai Chen

Xuefeng Bai

Zhixuan He

Juntao Li

Muyun Yang

Tiejun Zhao

Liqiang Nie

Min Zhang

282

17 Jun 2024

Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement

Wei Peng

Sujian Li

243

17 Jun 2024

HelpSteer2: Open-source dataset for training top-performing reward models

Zhilin Wang

Yi Dong

Jimmy J. Zhang

Makesh Narsimhan Sreedhar

Oleksii Kuchaiev

AI4TS

312

163

12 Jun 2024

Discovering Preference Optimization Algorithms with and for Large Language Models

Jakob Foerster

315

12 Jun 2024

A Critical Look At Tokenwise Reward-Guided Text Generation

601

12 Jun 2024

TextGrad: Automatic "Differentiation" via Text

James Zou

355

11 Jun 2024

PowerInfer-2: Fast Large Language Model Inference on a Smartphone

Haibo Chen

326

10 Jun 2024

The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

...

Sean Welleck

Graham Neubig

Moontae Lee

Kyungjae Lee

Minjoon Seo

ELM ALM LM&MA

427

09 Jun 2024

Improve Mathematical Reasoning in Language Models by Automated Process Supervision

Liangchen Luo

...

308

317

05 Jun 2024

Exploring Mathematical Extrapolation of Large Language Models with Synthetic Data

195

04 Jun 2024

Process-Driven Autoformalization in Lean 4

394

04 Jun 2024

When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs

385

153

03 Jun 2024

SemCoder: Training Code Language Models with Comprehensive Semantics

289

03 Jun 2024

Improving Reward Models with Synthetic Critiques

Zihuiwen Ye

Fraser Greenlee-Scott

269

31 May 2024

ANAH: Analytical Annotation of Hallucinations in Large Language Models

Dahua Lin

203

30 May 2024

Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models

Yu Qiao

296

29 May 2024

Exploring the LLM Journey from Cognition to Expression with Linear Representations

234

27 May 2024

MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time

...

296

25 May 2024

Models That Prove Their Own Correctness

452

24 May 2024

SimPO: Simple Preference Optimization with a Reference-Free RewardNeural Information Processing Systems (NeurIPS), 2024

Yu Meng

Mengzhou Xia

Danqi Chen

538

785

23 May 2024

Calibrated Self-Rewarding Vision Language ModelsNeural Information Processing Systems (NeurIPS), 2024

Zhaorun Chen

302

23 May 2024

Tutorly: Turning Programming Videos Into Apprenticeship Learning Environments with LLMs

151

21 May 2024

Hummer: Towards Limited Competitive Preference Dataset

397

19 May 2024

Generative Artificial Intelligence: A Systematic Review and Applications

298

227

17 May 2024

Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement LearningNeural Information Processing Systems (NeurIPS), 2024

Shengbang Tong

...

354

132

16 May 2024