James Chua

Karma: 762

https://jameschua.net/about/

Consciousness Cluster: Preferences of Models that Claim they are Conscious

James Chua, Owain_Evans, Sam Marks and Jan Betley

18 Mar 2026 16:06 UTC

92 points

30 comments5 min readLW link

Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers

Sam Marks, Adam Karvonen, James Chua, Subhash Kantamneni, Euan Ong, Julian Minder, Clément Dumas and Owain_Evans

18 Dec 2025 20:21 UTC

154 points

11 comments8 min readLW link

(arxiv.org)

OpenAI finetuning metrics: What is going on with the loss curves?

Jorio Cocola and James Chua

24 Nov 2025 18:29 UTC

41 points

5 comments2 min readLW link

Backdoor awareness and misaligned personas in reasoning models

James Chua, Owain_Evans and Jan Betley

20 Jun 2025 23:38 UTC

37 points

8 comments6 min readLW link

Thought Crime: Backdoors & Emergent Misalignment in Reasoning Models

James Chua and Owain_Evans

16 Jun 2025 16:43 UTC

69 points

2 comments8 min readLW link

OpenAI Responses API changes models’ behavior

Jan Betley and James Chua

11 Apr 2025 13:27 UTC

53 points

6 comments2 min readLW link

New, improved multiple-choice TruthfulQA

Owain_Evans, James Chua and Steph Lin

15 Jan 2025 23:32 UTC

72 points

1 comment3 min readLW link

Inference-Time-Compute: More Faithful? A Research Note

James Chua and Owain_Evans

15 Jan 2025 4:43 UTC

69 points

10 comments11 min readLW link

Tips On Empirical Research Slides

James Chua, John Hughes, Ethan Perez and Owain_Evans

8 Jan 2025 5:06 UTC

116 points

4 comments6 min readLW link

James Chua’s Shortform

James Chua23 May 2024 6:13 UTC

2 points

2 comments1 min readLW link

My MATS Summer 2023 experience

James Chua20 Mar 2024 11:26 UTC

30 points

0 comments3 min readLW link

(jameschua.net)

A library for safety research in conditioning on RLHF tasks

James Chua26 Feb 2023 14:50 UTC

10 points

2 comments1 min readLW link