Google Memory Caching 论文理解笔记
By Chaa 谷歌这篇二月份的论文,刚好和线性注意力有关,xhs刷到了就翻开来看看哈哈~
Notes
按主题自动收集当前仓库里的 Markdown。新笔记放进 `notes/` 后,构建时会进入这个列表。
By Chaa 谷歌这篇二月份的论文,刚好和线性注意力有关,xhs刷到了就翻开来看看哈哈~
为什么使用可分解核函数后,attention 可以写成类似 RNN 的状态递推形式,而原版 softmax attention 不可以?
线性注意力不是“把标准 attention 免费等价加速”,而是把标准 attention 的记忆机制从:每个 query 显式检索所有历史 token改成了:先把历史 keyvalue 压缩进一个固定大小状态,再让 query 从这个状态...
PS:这一讲可以看成第 3 讲架构取舍的进一步延伸。第 3 讲主要讲现代 dense Transformer 为什么采用 PreNorm、RMSNorm、RoPE、SwiGLU、GQA 等设计;第 4 讲则继续追问:如果标准 Transfo...
在我刚开始学习注意力机制的时候,就了解到了多头注意力。在那时就有一个疑问:明明从代数角度上来看(甚至权重数量也是一样的),好像多头注意力只是把同一件事情拆开来做罢了。为什么会有这么好的效果和区别呢?其实一个重要的答案就藏在softmax内
这节课对应 Stanford CS336: Language Modeling from Scratch, Spring 2025, Lecture 3: Architectures, Hyperparameters。
ps:其实这节课还有一些前瞻的,抑或是关于gpu架构的闲谈,但是我就没有记录。之后我应该会出专门按gpu/训练/推理等支线形式更新的系列