Bronson Schoen

Karma: 1,450

At Apollo Research working on scheming.

Papers:

A Research Agenda for Secret Loyalties

Joe Kwon, Alfie Lamerton, draganover, Dave Banerjee, Bronson Schoen, Daniel Kokotajlo, ryan_greenblatt, Owain_Evans, Fabien Roger and Tom Davidson

13 May 2026 17:34 UTC

35 points

3 comments3 min readLW link

Bronson Schoen’s Shortform

Bronson Schoen1 May 2026 18:23 UTC

6 points

4 comments1 min readLW link

Reproducing steering against evaluation awareness in a large open-weight model

Thomas Read, Bronson Schoen, Santiago Aranguri and Joseph Bloom

10 Apr 2026 10:45 UTC

89 points

17 comments15 min readLW link

A Toy Environment For Exploring Reasoning About Reward

jenny and Bronson Schoen

25 Mar 2026 20:29 UTC

57 points

7 comments3 min readLW link

Metagaming matters for training, evaluation, and oversight

jenny and Bronson Schoen

18 Mar 2026 21:26 UTC

77 points

5 comments1 min readLW link

(alignment.openai.com)

Stress Testing Deliberative Alignment for Anti-Scheming Training

Mikita Balesni, Bronson Schoen, Marius Hobbhahn, Axel Højmark, Alex Meinke, Teun van der Weij, Jérémy Scheurer, Felix Hofstätter, Nicholas Goldowsky-Dill, rusheb, Andrei Matveiakin, jenny and alex.lloyd

17 Sep 2025 16:59 UTC

133 points

19 comments1 min readLW link

(antischeming.ai)

Ablations for “Frontier Models are Capable of In-context Scheming”

Alex Meinke, Bronson Schoen, Marius Hobbhahn, Mikita Balesni, Jérémy Scheurer and rusheb

17 Dec 2024 23:58 UTC

116 points

1 comment2 min readLW link

Frontier Models are Capable of In-context Scheming

Marius Hobbhahn, Alex Meinke, Bronson Schoen, rusheb, Jérémy Scheurer and Mikita Balesni

5 Dec 2024 22:11 UTC

211 points

24 comments7 min readLW link