Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2507.18631
Cited By

Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment

v1v2 (latest)

Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment

24 July 2025

ArXiv (abs)PDF HTML Github (8★)

Papers citing "Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment"

5 / 5 papers shown

Contextual Image Attack: How Visual Context Exposes Multimodal Safety Vulnerabilities

Contextual Image Attack: How Visual Context Exposes Multimodal Safety Vulnerabilities

267

0

0

02 Dec 2025

HarmRLVR: Weaponizing Verifiable Rewards for Harmful LLM Alignment

HarmRLVR: Weaponizing Verifiable Rewards for Harmful LLM Alignment

255

0

0

17 Oct 2025

LLMs Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions

LLMs Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions

147

1

0

09 Oct 2025

Weak Form Learning for Mean-Field Partial Differential Equations: an Application to Insect Movement

Weak Form Learning for Mean-Field Partial Differential Equations: an Application to Insect Movement

Benjamin Van Allen

143

0

0

09 Oct 2025

Detecting and Filtering Unsafe Training Data via Data Attribution with Denoised Representation

Detecting and Filtering Unsafe Training Data via Data Attribution with Denoised Representation

150

8

0

17 Feb 2025

Page 1 of 1