anaguma comments on Vladimir_Nesov’s Shortform

anaguma 6 Aug 2025 19:30 UTC
1 point
1
6ND rule

8ND may be more accurate, since these pretraining runs usually use gradient checkpointing to reduce memory requirements.