JulesRoussel01

Karma: 6

In open RLVR, “improvement” depends on the instrument — a small GRPO testbed separating what training optimizes, measures, and teaches

JulesRoussel0115 Jun 2026 18:50 UTC

7 points

0 comments20 min readLW link