Google Memory Caching 论文理解笔记
By Chaa 谷歌这篇二月份的论文,刚好和线性注意力有关,xhs刷到了就翻开来看看哈哈~
AI systems / LLM / Transformer
这里整理我在机器学习、深度学习方向的一些思考和笔记。目前主要包括 Stanford CS336、 Transformer 架构和大模型系统相关内容,希望对你有用。
tokenizer -> transformer -> training loop -> inference
Latest notes
By Chaa 谷歌这篇二月份的论文,刚好和线性注意力有关,xhs刷到了就翻开来看看哈哈~
为什么使用可分解核函数后,attention 可以写成类似 RNN 的状态递推形式,而原版 softmax attention 不可以?
线性注意力不是“把标准 attention 免费等价加速”,而是把标准 attention 的记忆机制从:每个 query 显式检索所有历史 token改成了:先把历史 keyvalue 压缩进一个固定大小状态,再让 query 从这个状态...
Topics