Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models

19 November 2023

Zhaowei Zhu

Jialu Wang

Hao Cheng

Yang Liu

ArXiv PDF HTML

Papers citing "Unmasking and Improving Data Credibility: A Study with Datasets for Training Harmless Language Models"

24 / 24 papers shown

Title
Noise-Resilient Point-wise Anomaly Detection in Time Series Using Weak Segment Labels Yaxuan Wang Hao Cheng Jing Xiong Qingsong Wen Han Jia Ruixuan Song L. Zhang Zhaowei Zhu Yang Liu AI4TS 49 1 0 21 Jan 2025
Noisy Ostracods: A Fine-Grained, Imbalanced Real-World Dataset for Benchmarking Robust Machine Learning and Label Correction Methods Jiamian Hu Yuanyuan Hong Yihua Chen He Wang Moriaki Yasuhara 56 0 0 03 Dec 2024
Mislabeled examples detection viewed as probing machine learning models: concepts, survey and extensive benchmark Thomas George Pierre Nodet A. Bondu Vincent Lemaire VLM 13 0 0 21 Oct 2024
LLM Unlearning via Loss Adjustment with Only Forget Data Yaxuan Wang Jiaheng Wei Chris Liu Jinlong Pang Q. Liu A. Shah Yujia Bao Yang Liu Wei Wei KELM MU 32 6 0 14 Oct 2024
Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond Minghao Liu Zonglin Di Jiaheng Wei Zhongruo Wang Hengxiang Zhang ... Haobo Wang Lei Feng Jindong Wang James Davis Yang Liu 16 4 0 21 Aug 2024
FedFixer: Mitigating Heterogeneous Label Noise in Federated Learning Xinyuan Ji Zhaowei Zhu Wei Xi Olga Gadyatskaya Zilong Song Yong Cai Yang Liu FedML 27 7 0 25 Mar 2024
Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards Wei Shen Xiaoying Zhang Yuanshun Yao Rui Zheng Hongyi Guo Yang Liu ALM 33 11 0 12 Mar 2024
Measuring and Reducing LLM Hallucination without Gold-Standard Answers Jiaheng Wei Yuanshun Yao Jean-François Ton Hongyi Guo Andrew Estornell Yang Liu HILM 50 18 0 16 Feb 2024
Large Language Models as Agents in Two-Player Games Yang Liu Peng Sun Hang Li LLMAG 32 4 0 12 Feb 2024
On Catastrophic Inheritance of Large Foundation Models Hao Chen Bhiksha Raj Xing Xie Jindong Wang AI4CE 48 12 0 02 Feb 2024
Red-Teaming for Generative AI: Silver Bullet or Security Theater? Michael Feffer Anusha Sinha Wesley Hanwen Deng Zachary Chase Lipton Hoda Heidari AAML 25 66 0 29 Jan 2024
Human-Instruction-Free LLM Self-Alignment with Limited Samples Hongyi Guo Yuanshun Yao Wei Shen Jiaheng Wei Xiaoying Zhang Zhaoran Wang Yang Liu 93 20 0 06 Jan 2024
keqing: knowledge-based question answering is a nature chain-of-thought mentor of LLM Chaojie Wang Yishi Xu Zhong Peng Chenxi Zhang Bo Chen Xinrun Wang Lei Feng Bo An 72 18 0 31 Dec 2023
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 225 495 0 28 Sep 2022
Detecting Label Errors by using Pre-Trained Language Models Derek Chong Jenny Hong Christopher D. Manning NoLa 33 21 0 25 May 2022
Teaching language models to support answers with verified quotes Jacob Menick Maja Trebacz Vladimir Mikulik John Aslanides Francis Song ... Mia Glaese Susannah Young Lucy Campbell-Gillingham G. Irving Nat McAleese ELM RALM 229 255 0 21 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 303 11,730 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 315 8,261 0 28 Jan 2022
Detecting Corrupted Labels Without Training a Model to Predict Zhaowei Zhu Zihao Dong Yang Liu NoLa 141 61 0 12 Oct 2021
The Rich Get Richer: Disparate Impact of Semi-Supervised Learning Zhaowei Zhu Tianyi Luo Yang Liu 148 39 0 12 Oct 2021
Are Gender-Neutral Queries Really Gender-Neutral? Mitigating Gender Bias in Image Search Jialu Wang Yang Liu X. Wang FaML 147 95 0 12 Sep 2021
Combating noisy labels by agreement: A joint training method with co-regularization Hongxin Wei Lei Feng Xiangyu Chen Bo An NoLa 303 488 0 05 Mar 2020
Are We Modeling the Task or the Annotator? An Investigation of Annotator Bias in Natural Language Understanding Datasets Mor Geva Yoav Goldberg Jonathan Berant 235 319 0 21 Aug 2019
AI safety via debate G. Irving Paul Christiano Dario Amodei 199 199 0 02 May 2018