Kei Nishimura-Gasparian

Karma: 578

Preventative Steering has advantages over Inoculation Prompting

Aansh Samyani, ariana_azarbal, Jozdien and Kei Nishimura-Gasparian

24 Jun 2026 0:47 UTC

23 points

3 comments4 min readLW link

Research note on window shifting training

Kei Nishimura-Gasparian and np_x

17 Mar 2026 15:58 UTC

26 points

1 comment15 min readLW link

Appendices: Supervised finetuning on low-harm reward hacking generalises to high-harm reward hacking

Isaac Dunn, Kei Nishimura-Gasparian, Carson Denison, Ethan Perez and Robert Kirk

22 Dec 2025 19:33 UTC

17 points

0 comments1 min readLW link

Supervised finetuning on low-harm reward hacking generalises to high-harm reward hacking

Isaac Dunn, Kei Nishimura-Gasparian, Carson Denison, Ethan Perez and Robert Kirk

22 Dec 2025 19:32 UTC

15 points

0 comments30 min readLW link

Can you find the steganographically hidden message?

Kei Nishimura-Gasparian20 Oct 2025 17:29 UTC

49 points

2 comments7 min readLW link

Early Signs of Steganographic Capabilities in Frontier LLMs

Kei Nishimura-Gasparian, Artur Zolkowski, robert mccarthy and David Lindner

4 Jul 2025 16:36 UTC

33 points

5 comments2 min readLW link

Reward hacking is becoming more sophisticated and deliberate in frontier LLMs

Kei Nishimura-Gasparian24 Apr 2025 16:03 UTC

97 points

7 comments1 min readLW link

Auditing language models for hidden objectives

Sam Marks, Johannes Treutlein, dmz, Sam Bowman, Hoagy, Carson Denison, Kei Nishimura-Gasparian, 7vik, Akbir Khan, Austin Meek, Euan Ong, Christopher Olah, Fabien Roger, jeanne_, Meg, Drake Thomas, Adam Jermyn, Monte M and evhub

13 Mar 2025 19:18 UTC

153 points

15 comments13 min readLW link

Kei’s Shortform

Kei Nishimura-Gasparian27 Jan 2025 7:23 UTC

3 points

11 comments1 min readLW link

Reward hacking behavior can generalize across tasks

Kei Nishimura-Gasparian, Isaac Dunn, Henry Sleight, Miles Turpin, evhub, Carson Denison and Ethan Perez

28 May 2024 16:33 UTC

86 points

5 comments21 min readLW link