Hoagy

Karma: 1,202

Towards training-time mitigations for alignment faking in RL

Vlad Mikulik, gasteigerjo, Hoagy, Joe Benton, Benjamin Wright, Jonathan Uesato, Monte M, Fabien Roger and evhub

16 Dec 2025 21:01 UTC

39 points

1 comment5 min readLW link

(alignment.anthropic.com)

Training fails to elicit subtle reasoning in current language models

mishajw, Fabien Roger, Hoagy, gasteigerjo, Joe Benton and Vlad Mikulik

9 Oct 2025 19:04 UTC

49 points

3 comments4 min readLW link

(alignment.anthropic.com)

Auditing language models for hidden objectives

Sam Marks, Johannes Treutlein, dmz, Sam Bowman, Hoagy, Carson Denison, Kei Nishimura-Gasparian, 7vik, Akbir Khan, Austin Meek, Euan Ong, Christopher Olah, Fabien Roger, jeanne_, Meg, Drake Thomas, Adam Jermyn, Monte M and evhub

13 Mar 2025 19:18 UTC

153 points

15 comments13 min readLW link

Some additional SAE thoughts

Hoagy13 Jan 2024 19:31 UTC

31 points

4 comments13 min readLW link

Sparse Autoencoders Find Highly Interpretable Directions in Language Models

Logan Riggs, Hoagy, Aidan Ewart and Robert_AIZI

21 Sep 2023 15:30 UTC

161 points

8 comments5 min readLW link

AutoInterpretation Finds Sparse Coding Beats Alternatives

Hoagy17 Jul 2023 1:41 UTC

57 points

1 comment7 min readLW link

[Replication] Conjecture’s Sparse Coding in Small Transformers

Hoagy and Logan Riggs

16 Jun 2023 18:02 UTC

52 points

0 comments5 min readLW link

[Replication] Conjecture’s Sparse Coding in Toy Models

Hoagy and Logan Riggs

2 Jun 2023 17:34 UTC

25 points

0 comments1 min readLW link

Universality and Hidden Information in Concept Bottleneck Models

Hoagy5 Apr 2023 14:00 UTC

23 points

0 comments11 min readLW link

Nokens: A potential method of investigating glitch tokens

Hoagy15 Mar 2023 16:23 UTC

21 points

0 comments4 min readLW link

Automating Consistency

Hoagy17 Feb 2023 13:24 UTC

10 points

0 comments1 min readLW link

Distilled Representations Research Agenda

Hoagy and mishajw

18 Oct 2022 20:59 UTC

15 points

2 comments8 min readLW link

Remaking EfficientZero (as best I can)

Hoagy4 Jul 2022 11:03 UTC

37 points

9 comments22 min readLW link

Note-Taking without Hidden Messages

Hoagy30 Apr 2022 11:15 UTC

17 points

2 comments4 min readLW link

ELK Sub—Note-taking in internal rollouts

Hoagy9 Mar 2022 17:23 UTC

6 points

0 comments5 min readLW link

Automated Fact Checking: A Look at the Field

Hoagy6 Oct 2021 23:52 UTC

12 points

0 comments8 min readLW link

Hoagy’s Shortform

Hoagy21 Sep 2020 22:00 UTC

3 points

12 comments1 min readLW link

Safe Scrambling?

Hoagy29 Aug 2020 14:31 UTC

3 points

1 comment2 min readLW link

When do utility functions constrain?

Hoagy23 Aug 2019 17:19 UTC

37 points

8 comments7 min readLW link