Zygi Straznickas

Karma: 308

Previously: math for AI and AI for math

Now just kinda trying to figure out if AI can be made safe

Why White-Box Redteaming Makes Me Feel Weird

Zygi Straznickas16 Mar 2025 18:54 UTC

209 points

36 comments3 min readLW link

Fluent dreaming for language models (AI interpretability method)

tbenthompson, mikes and Zygi Straznickas

6 Feb 2024 6:02 UTC

46 points

5 comments1 min readLW link

(arxiv.org)