Theoretical Analysis of Weak-to-Strong Generalization

25 May 2024

Papers citing "Theoretical Analysis of Weak-to-Strong Generalization"

23 / 23 papers shown

Title
Scaling Laws For Scalable Oversight Joshua Engels David D. Baek Subhash Kantamneni Max Tegmark ELM 70 0 0 25 Apr 2025
Weak-for-Strong: Training Weak Meta-Agent to Harness Strong Executors Fan Nie Lan Feng Haotian Ye Weixin Liang Pan Lu Huaxiu Yao Alexandre Alahi James Zou 72 0 0 07 Apr 2025
How to Mitigate Overfitting in Weak-to-strong Generalization? Junhao Shi Qinyuan Cheng Zhaoye Fei Y. Zheng Qipeng Guo Xipeng Qiu 65 0 0 06 Mar 2025
Weak-to-Strong Generalization Even in Random Feature Networks, Provably Marko Medvedev Kaifeng Lyu Dingli Yu Sanjeev Arora Zhiyuan Li Nathan Srebro 99 0 0 04 Mar 2025
SEER: Self-Explainability Enhancement of Large Language Models' Representations Guanxu Chen Dongrui Liu Tao Luo Jing Shao LRM MILM 59 1 0 07 Feb 2025
Understanding the Capabilities and Limitations of Weak-to-Strong Generalization Wei Yao Wenkai Yang Z. Wang Yankai Lin Yong Liu ELM 88 1 0 03 Feb 2025
Weak-to-Strong Generalization Through the Data-Centric Lens Changho Shin John Cooper Frederic Sala 71 5 0 05 Dec 2024
High-dimensional Analysis of Knowledge Distillation: Weak-to-Strong Generalization and Scaling Laws M. E. Ildiz Halil Alperen Gozeten Ege Onur Taga Marco Mondelli Samet Oymak 42 2 0 24 Oct 2024
Weak-to-Strong Generalization beyond Accuracy: a Pilot Study in Safety, Toxicity, and Legal Reasoning Ruimeng Ye Yang Xiao Bo Hui ALM ELM OffRL 27 2 0 16 Oct 2024
Language Model Preference Evaluation with Multiple Weak Evaluators Zhengyu Hu Jieyu Zhang Zhihan Xiong Alexander Ratner Hui Xiong Ranjay Krishna 36 3 0 14 Oct 2024
Provable Weak-to-Strong Generalization via Benign Overfitting David X. Wu A. Sahai 52 6 0 06 Oct 2024
EnsemW2S: Can an Ensemble of LLMs be Leveraged to Obtain a Stronger LLM? Aakriti Agrawal Mucong Ding Zora Che Chenghao Deng Anirudh Satheesh John Langford Furong Huang 37 4 0 06 Oct 2024
Disentangling Latent Shifts of In-Context Learning Through Self-Training Josip Jukić Jan Snajder 16 0 0 02 Oct 2024
What is the Role of Small Models in the LLM Era: A Survey Lihu Chen Gaël Varoquaux ALM 50 23 0 10 Sep 2024
Weak-to-Strong Reasoning Yuqing Yang Yan Ma Pengfei Liu LRM 25 13 0 18 Jul 2024
Improving Weak-to-Strong Generalization with Reliability-Aware Alignment Yue Guo Yi Yang 22 3 0 27 Jun 2024
Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization Wenkai Yang Shiqi Shen Guangyao Shen Zhi Gong Yankai Lin Zhi Gong Yankai Lin Ji-Rong Wen 41 13 0 17 Jun 2024
ChatGPT: Beginning of an End of Manual Linguistic Data Annotation? Use Case of Automatic Genre Identification Taja Kuzman I. Mozetič Nikola Ljubesic 41 87 0 07 Mar 2023
Label Propagation with Weak Supervision Rattana Pukdee Dylan Sam Maria-Florina Balcan Pradeep Ravikumar 19 7 0 07 Oct 2022
Honest Students from Untrusted Teachers: Learning an Interpretable Question-Answering Pipeline from a Pretrained Language Model Jacob Eisenstein D. Andor Bernd Bohnet Michael Collins David M. Mimno LRM 173 24 0 05 Oct 2022
Understanding Programmatic Weak Supervision via Source-aware Influence Function Jieyu Zhang Hong Wang Cheng-Yu Hsieh Alexander Ratner TDI 19 9 0 25 May 2022
Large Language Models are Few-Shot Clinical Information Extractors Monica Agrawal S. Hegselmann Hunter Lang Yoon Kim David Sontag BDL LM&MA 146 327 0 25 May 2022
Co-training Improves Prompt-based Learning for Large Language Models Hunter Lang Monica Agrawal Yoon Kim David Sontag VLM LRM 146 38 0 02 Feb 2022