Adam Karvonen

Karma: 1,371

Building Better Activation Oracles

ceselder, jan_bauer, Niclas Luick, Adam Karvonen and Neel Nanda

4 Jun 2026 18:34 UTC

60 points

1 comment7 min readLW link

Realistic Evaluations Will Not Prevent Evaluation Awareness

Adam Karvonen24 Feb 2026 17:51 UTC

37 points

9 comments6 min readLW link

Activation Oracles: Training and Evaluating LLMs as General-Purpose Activation Explainers

Sam Marks, Adam Karvonen, James Chua, Subhash Kantamneni, Euan Ong, Julian Minder, Clément Dumas and Owain_Evans

18 Dec 2025 20:21 UTC

154 points

11 comments8 min readLW link

(arxiv.org)

Defending Against Model Weight Exfiltration Through Inference Verification

Roy Rinberg, Adam Karvonen, dreuter and Keri Warr

15 Dec 2025 15:26 UTC

120 points

15 comments8 min readLW link

Steering Out-of-Distribution Generalization with Concept Ablation Fine-Tuning

kh4dien, Helena Casademunt, Adam Karvonen, Sam Marks, Senthooran Rajamanoharan and Neel Nanda

23 Jul 2025 14:57 UTC

79 points

8 comments5 min readLW link

Race and Gender Bias As An Example of Unfaithful Chain of Thought in the Wild

Adam Karvonen and Sam Marks

2 Jul 2025 16:35 UTC

191 points

26 comments4 min readLW link

Frontier AI Models Still Fail at Basic Physical Tasks: A Manufacturing Case Study

Adam Karvonen14 Apr 2025 17:38 UTC

165 points

43 comments7 min readLW link

(adamkarvonen.github.io)

Adam Karvonen’s Shortform

Adam Karvonen18 Jan 2025 17:11 UTC

4 points

1 comment1 min readLW link

SAEBench: A Comprehensive Benchmark for Sparse Autoencoders

Can, Adam Karvonen, Johnny Lin, Curt Tigges, Joseph Bloom, chanind, Yeu-Tong Lau, Eoin Farrell, Arthur Conmy, CallumMcDougall, Kola Ayonrinde, Matthew Wearden, Sam Marks and Neel Nanda

11 Dec 2024 6:30 UTC

82 points

6 comments2 min readLW link

(www.neuronpedia.org)

Evaluating Sparse Autoencoders with Board Game Models

Adam Karvonen, Sam Marks, Can, Benjamin Wright, Jannik Brinkmann, Logan Riggs and Rico Angell

2 Aug 2024 19:50 UTC

38 points

1 comment9 min readLW link

Using an LLM perplexity filter to detect weight exfiltration

Adam Karvonen21 Jul 2024 18:18 UTC

25 points

11 comments2 min readLW link

OthelloGPT learned a bag of heuristics

jylin04, JackS, Adam Karvonen and Can

2 Jul 2024 9:12 UTC

111 points

10 comments9 min readLW link

An Intuitive Explanation of Sparse Autoencoders for Mechanistic Interpretability of LLMs

Adam Karvonen25 Jun 2024 15:57 UTC

30 points

0 comments9 min readLW link

(adamkarvonen.github.io)

A Chess-GPT Linear Emergent World Representation

Adam Karvonen8 Feb 2024 4:25 UTC

106 points

14 comments7 min readLW link

(adamkarvonen.github.io)