vedant-badoni

Karma: 33

Exploring Reinforcement Learning Effects on Chain-of-Thought Legibility

Julian H, RohanS, Baram Sosis, vedant-badoni and The-Turtle

6 Jan 2026 3:04 UTC

41 points

3 comments21 min readLW link