Jan Betley

Karma: 1,475

Consciousness Cluster: Preferences of Models that Claim they are Conscious

James Chua, Owain_Evans, Sam Marks and Jan Betley

18 Mar 2026 16:06 UTC

88 points

30 comments5 min readLW link

Does 1025 modulo 57 equal 59?

Jan Betley23 Dec 2025 13:00 UTC

33 points

3 comments2 min readLW link

Was Barack Obama still serving as president in December?

Jan Betley16 Sep 2025 11:18 UTC

137 points

16 comments6 min readLW link

Concept Poisoning: Probing LLMs without probes

Jan Betley, Jorio Cocola, Dylan Feng and Owain_Evans

5 Aug 2025 17:00 UTC

60 points

5 comments13 min readLW link

Backdoor awareness and misaligned personas in reasoning models

James Chua, Owain_Evans and Jan Betley

20 Jun 2025 23:38 UTC

37 points

8 comments6 min readLW link

OpenAI Responses API changes models’ behavior

Jan Betley and James Chua

11 Apr 2025 13:27 UTC

53 points

6 comments2 min readLW link

[Question] Are there any (semi-)detailed future scenarios where we win?

Jan Betley7 Apr 2025 19:13 UTC

15 points

3 comments1 min readLW link

Jan Betley’s Shortform

Jan Betley31 Mar 2025 14:02 UTC

6 points

43 comments1 min readLW link

Finding Emergent Misalignment

Jan Betley26 Mar 2025 17:33 UTC

39 points

0 comments3 min readLW link

Open problems in emergent misalignment

Jan Betley and Daniel Tan

1 Mar 2025 9:47 UTC

86 points

18 comments7 min readLW link

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

Jan Betley and Owain_Evans

25 Feb 2025 17:39 UTC

335 points

92 comments4 min readLW link

Me, Myself, and AI: the Situational Awareness Dataset (SAD) for LLMs

L Rudolf L, bilalchughtai, Jan Betley, kaivu, Jérémy Scheurer, Mikita Balesni, AlexMeinke, Owain_Evans and Marius Hobbhahn

8 Jul 2024 22:24 UTC

109 points

40 comments5 min readLW link 1 review

Self-shutdown AI

Jan Betley21 Aug 2023 16:48 UTC

13 points

2 comments2 min readLW link

Localizing goal misgeneralization in a maze-solving policy network

Jan Betley6 Jul 2023 16:21 UTC

37 points

2 comments7 min readLW link

[Question] Reverse engineering of the simulation

Jan Betley7 Feb 2022 21:36 UTC

1 point

2 comments1 min readLW link

[Question] What do we really expect from a well-aligned AI?

Jan Betley4 Jan 2021 20:57 UTC

13 points

10 comments1 min readLW link