Stanford CS336 Lecture 4 解读:Attention Alternatives and Mixtures of Experts
PS:这一讲可以看成第 3 讲架构取舍的进一步延伸。第 3 讲主要讲现代 dense Transformer 为什么采用 PreNorm、RMSNorm、RoPE、SwiGLU、GQA 等设计;第 4 讲则继续追问:如果标准 Transfo...
Category
这个分类下共有 3 篇笔记。分类页是静态生成的,可以直接刷新、收藏和分享。
PS:这一讲可以看成第 3 讲架构取舍的进一步延伸。第 3 讲主要讲现代 dense Transformer 为什么采用 PreNorm、RMSNorm、RoPE、SwiGLU、GQA 等设计;第 4 讲则继续追问:如果标准 Transfo...
这节课对应 Stanford CS336: Language Modeling from Scratch, Spring 2025, Lecture 3: Architectures, Hyperparameters。
ps:其实这节课还有一些前瞻的,抑或是关于gpu架构的闲谈,但是我就没有记录。之后我应该会出专门按gpu/训练/推理等支线形式更新的系列