ArchiveSequencesAbout

QuestionsEventsShortformAlignment ForumAF Comments

HomeFeaturedAllTagsRecent Comments

Devina Jain

Karma: 8

AllPostsComments

Can Persuasion Break AI Safety? Exploring the Interplay Between Fine-Tuning, Attacks, and Guardrails

Devina Jain4 Feb 2025 19:10 UTC

9 points

0 comments10 min readLW link