Jonathan Uesato

Karma: 382

Towards training-time mitigations for alignment faking in RL

Vlad Mikulik, gasteigerjo, Hoagy, Joe Benton, Benjamin Wright, Jonathan Uesato, Monte M, Fabien Roger and evhub

16 Dec 2025 21:01 UTC

39 points

1 comment5 min readLW link

(alignment.anthropic.com)

Natural emergent misalignment from reward hacking in production RL

evhub, Monte M, Benjamin Wright and Jonathan Uesato

21 Nov 2025 20:00 UTC

258 points

32 comments9 min readLW link

Importance of foresight evaluations within ELK

Jonathan Uesato6 Jan 2022 15:34 UTC

25 points

1 comment10 min readLW link

Draft papers for REALab and Decoupled Approval on tampering

Jonathan Uesato and Ramana Kumar

28 Oct 2020 16:01 UTC

47 points

2 comments1 min readLW link