核函数为什么能把 Attention 写成状态方程
为什么使用可分解核函数后,attention 可以写成类似 RNN 的状态递推形式,而原版 softmax attention 不可以?
Category
这个分类下共有 3 篇笔记。分类页是静态生成的,可以直接刷新、收藏和分享。
为什么使用可分解核函数后,attention 可以写成类似 RNN 的状态递推形式,而原版 softmax attention 不可以?
线性注意力不是“把标准 attention 免费等价加速”,而是把标准 attention 的记忆机制从:每个 query 显式检索所有历史 token改成了:先把历史 keyvalue 压缩进一个固定大小状态,再让 query 从这个状态...
在我刚开始学习注意力机制的时候,就了解到了多头注意力。在那时就有一个疑问:明明从代数角度上来看(甚至权重数量也是一样的),好像多头注意力只是把同一件事情拆开来做罢了。为什么会有这么好的效果和区别呢?其实一个重要的答案就藏在softmax内