Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2506.14261
Cited By

RL-Obfuscation: Can Language Models Learn to Evade Latent-Space Monitors?

v1v2v3 (latest)

RL-Obfuscation: Can Language Models Learn to Evade Latent-Space Monitors?

17 June 2025

ArXiv (abs)PDF HTML Github

Papers citing "RL-Obfuscation: Can Language Models Learn to Evade Latent-Space Monitors?"

2 / 2 papers shown

Red-teaming Activation Probes using Prompted LLMs

Red-teaming Activation Probes using Prompted LLMs

399

0

0

01 Nov 2025

Probe-based Fine-tuning for Reducing Toxicity

Probe-based Fine-tuning for Reducing Toxicity

97

0

0

24 Oct 2025

Page 1 of 1