Efficient Toxic Content Detection by Bootstrapping and Distilling Large
Language Models

Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models

13 December 2023

Konstantinos Psounis

Papers citing "Efficient Toxic Content Detection by Bootstrapping and Distilling Large Language Models"

14 / 14 papers shown

Title
A Data-Centric Approach for Safe and Secure Large Language Models against Threatening and Toxic Content Chaima Njeh Haïfa Nakouri Fehmi Jaafar 12 0 0 19 Apr 2025
Precise Parameter Localization for Textual Generation in Diffusion Models Łukasz Staniszewski Bartosz Cywiñski Franziska Boenisch Kamil Deja Adam Dziedzic DiffM 66 0 0 17 Feb 2025
Towards Efficient and Explainable Hate Speech Detection via Model Distillation Paloma Piot Javier Parapar 63 176 0 18 Dec 2024
Leveraging Large Language Models and Topic Modeling for Toxicity Classification Haniyeh Ehsani Oskouie Christina Chance Claire Huang Margaret Capetz Elizabeth Eyeson Majid Sarrafzadeh 61 3 0 26 Nov 2024
Efficient Detection of Toxic Prompts in Large Language Models Yi Liu Junzhe Yu Huijia Sun Ling Shi Gelei Deng Yuqi Chen Yang Liu 16 4 0 21 Aug 2024
TorchOpera: A Compound AI System for LLM Safety Shanshan Han Yuhang Yao Zijian Hu Dimitris Stripelis Zhaozhuo Xu Chaoyang He LLMAG 29 0 0 16 Jun 2024
Towards Transparency: Exploring LLM Trainings Datasets through Visual Topic Modeling and Semantic Frame Charles de Dampierre Andrei Mogoutov Nicolas Baumard 37 1 0 03 Jun 2024
Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping Haoyu Wang Guozheng Ma Ziqiao Meng Zeyu Qin Li Shen ... Liu Liu Yatao Bian Tingyang Xu Xueqian Wang Peilin Zhao 55 12 0 12 Feb 2024
Characterizing Large Language Model Geometry Helps Solve Toxicity Detection and Generation Randall Balestriero Romain Cosentino Sarath Shekkizhar 10 2 0 04 Dec 2023
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes Lokesh Nagalapatti Chun-Liang Li Chih-Kuan Yeh Hootan Nakhost Yasuhisa Fujii Alexander Ratner Ranjay Krishna Chen-Yu Lee Tomas Pfister ALM 198 283 0 03 May 2023
Toxicity Detection with Generative Prompt-based Inference Yau-Shian Wang Y. Chang 69 34 0 24 May 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 291 2,712 0 24 May 2022
Self-Consistency Improves Chain of Thought Reasoning in Language Models Xuezhi Wang Jason W. Wei Dale Schuurmans Quoc Le Ed H. Chi Sharan Narang Aakanksha Chowdhery Denny Zhou ReLM BDL LRM AI4CE 297 3,163 0 21 Mar 2022
What Makes Good In-Context Examples for GPT- $3$ ? Jiachang Liu Dinghan Shen Yizhe Zhang Bill Dolan Lawrence Carin Weizhu Chen AAML RALM 275 1,296 0 17 Jan 2021