v1v2 (latest)

Multi-Domain Explainability of Preferences

26 May 2025

Papers citing "Multi-Domain Explainability of Preferences"

1 / 1 papers shown

Title
Interpreting Language Reward Models via Contrastive ExplanationsInternational Conference on Learning Representations (ICLR), 2024 Junqi Jiang Tom Bewley Saumitra Mishra Freddy Lecue Manuela Veloso 445 5 0 25 Nov 2024