AdamGleave

Karma: 946

Avoiding AI Deception: Lie Detectors can either Induce Honesty or Evasion

ChengCheng, ChrisCundy, smallsilo and AdamGleave

5 Jun 2025 23:07 UTC

22 points

2 comments5 min readLW link

(far.ai)

Illusory Safety: Redteaming DeepSeek R1 and the Strongest Fine-Tunable Models of OpenAI, Anthropic, and Google

ChengCheng, Brendan Murphy, Adrià Garriga-alonso, Yashvardhan Sharma, dsbowen, smallsilo, Yawen Duan, ChrisCundy, Hannah Betts, AdamGleave and Kellin Pelrine

7 Feb 2025 3:57 UTC

37 points

0 comments10 min readLW link

GPT-4o Guardrails Gone: Data Poisoning & Jailbreak-Tuning

ChengCheng, Brendan Murphy, AdamGleave and Kellin Pelrine

1 Nov 2024 0:10 UTC

18 points

0 comments6 min readLW link

(far.ai)

Pacing Outside the Box: RNNs Learn to Plan in Sokoban

Adrià Garriga-alonso, taufeeque, AdamGleave and ChengCheng

25 Jul 2024 22:00 UTC

59 points

8 comments2 min readLW link

(arxiv.org)

Does robustness improve with scale?

ChengCheng, niki.h, Ian McKenzie, Oskar Hollinsworth, Tom Tseng and AdamGleave

25 Jul 2024 20:55 UTC

14 points

0 comments1 min readLW link

(far.ai)

Beyond the Board: Exploring AI Robustness Through Go

AdamGleave19 Jun 2024 16:40 UTC

41 points

2 comments1 min readLW link

(far.ai)

More people getting into AI safety should do a PhD

AdamGleave14 Mar 2024 22:14 UTC

61 points

24 comments12 min readLW link

(gleave.me)

2023 Alignment Research Updates from FAR AI

AdamGleave and EuanMcLean

4 Dec 2023 22:32 UTC

18 points

0 comments8 min readLW link

(far.ai)

What’s new at FAR AI

AdamGleave and EuanMcLean

4 Dec 2023 21:18 UTC

41 points

0 comments5 min readLW link

(far.ai)

Even Superhuman Go AIs Have Surprising Failure Modes

AdamGleave, EuanMcLean, Tony Wang, Kellin Pelrine, Tom Tseng, Yawen Duan, Joseph Miller and MichaelDennis

20 Jul 2023 17:31 UTC

131 points

22 comments10 min readLW link

(far.ai)

AI Safety in a World of Vulnerable Machine Learning Systems

AdamGleave and EuanMcLean

8 Mar 2023 2:40 UTC

71 points

29 comments29 min readLW link

(far.ai)

CIRL Corrigibility is Fragile

Rachel Freedman and AdamGleave

21 Dec 2022 1:40 UTC

58 points

8 comments12 min readLW link

Introducing the Fund for Alignment Research (We’re Hiring!)

AdamGleave, Scott Emmons, Ethan Perez and Claudia Shi

6 Jul 2022 2:07 UTC

62 points

0 comments4 min readLW link