Daan Henselmans

Karma: 150

Computational linguist, writer, AI dev. Currently running AI safety research.

Opus 4.6 Reasoning Doesn’t Verbalize Alignment Faking, but Behavior Persists

Daan Henselmans, Arno Libert and LennardZ

9 Feb 2026 12:55 UTC

118 points

13 comments8 min readLW link

Published Safety Prompts May Create Evaluation Blind Spots

Daan Henselmans and Arno Libert

30 Jan 2026 18:27 UTC

2 points

0 comments4 min readLW link

Minor Wording Changes Produce Major Shifts in AI Behavior

Daan Henselmans and Derck Prinzhorn

26 Nov 2025 12:52 UTC

2 points

0 comments6 min readLW link

Low-Temperature Evaluations Can Mask Critical AI Behaviors

Daan Henselmans and Derck Prinzhorn

13 Nov 2025 20:12 UTC

8 points

1 comment4 min readLW link

Thin Alignment Can’t Solve Thick Problems

Daan Henselmans27 Apr 2025 22:42 UTC

11 points

2 comments9 min readLW link

Alignment Can Reduce Performance on Simple Ethical Questions

Daan Henselmans3 Feb 2025 19:35 UTC

16 points

7 comments6 min readLW link