Olli Järviniemi

Karma: 1,946

Homepage: https://ollij.fi/

Opinions expressed are my own.

Methodology for inferring propensities of LLMs

Olli Järviniemi24 Apr 2026 13:40 UTC

46 points

1 comment5 min readLW link

Subversion via Focal Points: Investigating Collusion in LLM Monitoring

Olli Järviniemi8 Jul 2025 10:15 UTC

16 points

2 comments1 min readLW link

Making deals with early schemers

Julian Stastny, Olli Järviniemi and Buck

20 Jun 2025 18:21 UTC

127 points

41 comments15 min readLW link

Schelling game evaluations for AI control

Olli Järviniemi8 Oct 2024 12:01 UTC

71 points

5 comments11 min readLW link

Distinguish worst-case analysis from instrumental training-gaming

Olli Järviniemi and Buck

5 Sep 2024 19:13 UTC

52 points

1 comment5 min readLW link 1 review

Trustworthy and untrustworthy models

Olli Järviniemi19 Aug 2024 16:27 UTC

47 points

3 comments8 min readLW link

Near-mode thinking on AI

Olli Järviniemi4 Aug 2024 20:47 UTC

126 points

10 comments5 min readLW link 1 review

An experiment on hidden cognition

Olli Järviniemi22 Jul 2024 3:26 UTC

25 points

2 comments7 min readLW link

Brief notes on the Wikipedia game

Olli Järviniemi14 Jul 2024 2:28 UTC

68 points

9 comments4 min readLW link

Dialogue introduction to Singular Learning Theory

Olli Järviniemi8 Jul 2024 16:58 UTC

114 points

16 comments8 min readLW link 1 review

A civilization ran by amateurs

Olli Järviniemi30 May 2024 17:57 UTC

66 points

8 comments6 min readLW link

Testing for parallel reasoning in LLMs

meemi and Olli Järviniemi

19 May 2024 15:28 UTC

9 points

7 comments9 min readLW link

Uncovering Deceptive Tendencies in Language Models: A Simulated Company AI Assistant

Olli Järviniemi and evhub

6 May 2024 7:07 UTC

95 points

13 comments1 min readLW link

(arxiv.org)

On precise out-of-context steering

Olli Järviniemi3 May 2024 9:41 UTC

9 points

6 comments3 min readLW link

Instrumental deception and manipulation in LLMs—a case study

Olli Järviniemi24 Feb 2024 2:07 UTC

39 points

13 comments12 min readLW link

Urging an International AI Treaty: An Open Letter

Olli Järviniemi31 Oct 2023 11:26 UTC

48 points

2 comments1 min readLW link

(aitreaty.org)

Olli Järviniemi’s Shortform

Olli Järviniemi23 Mar 2023 10:59 UTC

3 points

26 comments1 min readLW link

Takeaways from calibration training

Olli Järviniemi29 Jan 2023 19:09 UTC

45 points

2 comments3 min readLW link 1 review