Notes

AI 学习笔记

按主题自动收集当前仓库里的 Markdown。新笔记放进 `notes/` 后，构建时会进入这个列表。

全部 CS336 课程解读论文阅读 Transformer 架构

论文阅读 · 2026/06/08

Google Memory Caching 论文理解笔记

By Chaa 谷歌这篇二月份的论文，刚好和线性注意力有关，xhs刷到了就翻开来看看哈哈~

Transformer 架构 · 2026/06/06

核函数为什么能把 Attention 写成状态方程

为什么使用可分解核函数后，attention 可以写成类似 RNN 的状态递推形式，而原版 softmax attention 不可以？

Transformer 架构 · 2026/06/02

线性注意力：从 Softmax Attention 到 Kernel Attention 的本质变化

线性注意力不是“把标准 attention 免费等价加速”，而是把标准 attention 的记忆机制从：每个 query 显式检索所有历史 token改成了：先把历史 keyvalue 压缩进一个固定大小状态，再让 query 从这个状态...

CS336 课程解读 · 2026/06/01

Stanford CS336 Lecture 4 解读：Attention Alternatives and Mixtures of Experts

PS:这一讲可以看成第 3 讲架构取舍的进一步延伸。第 3 讲主要讲现代 dense Transformer 为什么采用 PreNorm、RMSNorm、RoPE、SwiGLU、GQA 等设计；第 4 讲则继续追问：如果标准 Transfo...

Transformer 架构 · 2026/05/30

注意力头的本质：为什么 Multi-Head Attention 不只是把大矩阵切成小矩阵

在我刚开始学习注意力机制的时候，就了解到了多头注意力。在那时就有一个疑问：明明从代数角度上来看（甚至权重数量也是一样的），好像多头注意力只是把同一件事情拆开来做罢了。为什么会有这么好的效果和区别呢？其实一个重要的答案就藏在softmax内

CS336 课程解读 · 2026/05/29

Stanford CS336 Lecture 3 解读：Architectures, Hyperparameters

这节课对应 Stanford CS336: Language Modeling from Scratch, Spring 2025, Lecture 3: Architectures, Hyperparameters。

CS336 课程解读 · 2026/05/29

Stanford CS336 Lecture 1 解读：Overview and Tokenization

ps:其实这节课还有一些前瞻的，抑或是关于gpu架构的闲谈，但是我就没有记录。之后我应该会出专门按gpu/训练/推理等支线形式更新的系列