Transformer 架构

这个分类下共有 3 篇笔记。分类页是静态生成的，可以直接刷新、收藏和分享。

为什么使用可分解核函数后，attention 可以写成类似 RNN 的状态递推形式，而原版 softmax attention 不可以？

线性注意力：从 Softmax Attention 到 Kernel Attention 的本质变化

线性注意力不是“把标准 attention 免费等价加速”，而是把标准 attention 的记忆机制从：每个 query 显式检索所有历史 token改成了：先把历史 keyvalue 压缩进一个固定大小状态，再让 query 从这个状态...

在我刚开始学习注意力机制的时候，就了解到了多头注意力。在那时就有一个疑问：明明从代数角度上来看（甚至权重数量也是一样的），好像多头注意力只是把同一件事情拆开来做罢了。为什么会有这么好的效果和区别呢？其实一个重要的答案就藏在softmax内