Aaryan Chandna

Karma: 30

Is the evidence in “Language Models Learn to Mislead Humans via RLHF” valid?

Aaryan Chandna, Lukas Fluri and micahcarroll

1 Dec 2025 6:50 UTC

37 points

0 comments19 min readLW link