A Causal Explainable Guardrails for Large Language Models

7 May 2024

Papers citing "A Causal Explainable Guardrails for Large Language Models"

8 / 8 papers shown

Title
Causality Is Key to Understand and Balance Multiple Goals in Trustworthy ML and Foundation Models Ruta Binkyte Ivaxi Sheth Zhijing Jin Mohammad Havaei Bernhard Schölkopf Mario Fritz 51 0 0 28 Feb 2025
Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models Yichen Sun Zhixuan Chu Zhan Qin Kui Ren DiffM 25 0 0 24 Jun 2024
The Internal State of an LLM Knows When It's Lying A. Azaria Tom Michael Mitchell HILM 210 297 0 26 Apr 2023
Incorporating Causal Analysis into Diversified and Logical Response Generation Jiayi Liu Wei Wei Zhixuan Chu Xing Gao Ji Zhang T. Yan Yulin Kang CML 22 4 0 20 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 301 11,730 0 04 Mar 2022
Learning Infomax and Domain-Independent Representations for Causal Effect Inference with Real-World Data Zhixuan Chu S. Rathbun Sheng R. Li CML OOD 37 14 0 22 Feb 2022
ROCK: Causal Inference Principles for Reasoning about Commonsense Causality Jiayao Zhang Hongming Zhang Weijie J. Su Dan Roth CML LRM 161 24 0 31 Jan 2022
Probing Classifiers: Promises, Shortcomings, and Advances Yonatan Belinkov 221 291 0 24 Feb 2021