Lukas Fluri

Karma: 90

Zurich AI Safety is hiring a Director

MariusWenk, marcel.steimke, Lukas Fluri and alex.lloyd

3 Mar 2026 10:29 UTC

21 points

0 comments3 min readLW link

Is the evidence in “Language Models Learn to Mislead Humans via RLHF” valid?

Aaryan Chandna, Lukas Fluri and micahcarroll

1 Dec 2025 6:50 UTC

37 points

0 comments19 min readLW link

Zurich AI Safety is looking for (Co-)Directors—EOI

MariusWenk, alex.lloyd, Lukas Fluri and marcel.steimke

3 Sep 2025 17:40 UTC

12 points

0 comments4 min readLW link

The Perils of Optimizing Learned Reward Functions

Lukas Fluri11 Jul 2025 16:06 UTC

19 points

1 comment21 min readLW link

Evaluating Superhuman Models with Consistency Checks

Daniel Paleka and Lukas Fluri

1 Aug 2023 7:51 UTC

21 points

2 comments9 min readLW link

(arxiv.org)

Open Problems in Negative Side Effect Minimization

Fabian Schimpf and Lukas Fluri

6 May 2022 9:37 UTC

12 points

6 comments17 min readLW link