CS336 课程解读

这个分类下共有 3 篇笔记。分类页是静态生成的，可以直接刷新、收藏和分享。

PS:这一讲可以看成第 3 讲架构取舍的进一步延伸。第 3 讲主要讲现代 dense Transformer 为什么采用 PreNorm、RMSNorm、RoPE、SwiGLU、GQA 等设计；第 4 讲则继续追问：如果标准 Transfo...

Stanford CS336 Lecture 3 解读：Architectures, Hyperparameters

这节课对应 Stanford CS336: Language Modeling from Scratch, Spring 2025, Lecture 3: Architectures, Hyperparameters。

ps:其实这节课还有一些前瞻的，抑或是关于gpu架构的闲谈，但是我就没有记录。之后我应该会出专门按gpu/训练/推理等支线形式更新的系列