注意力机制

这里聚焦注意力机制的演进、工程优化和典型架构对比。目录已经按 GitBook 连续阅读习惯重排:先总览,再推导,再对照源码。

最推荐的阅读顺序

  1. formula-to-code-walkthrough.md:最快建立“公式 -> 张量形状 -> 源码”映射。

  2. attention-evolution-and-inference.md:理解 MHA / MQA / GQA / MLA / SSM 的总图。

  3. attention-mechanisms-unified-comparison.md:先走专题入口,再按问题跳到对应深挖页。

  4. mha-vs-gqa-full-derivation.mdarrow-up-right:看清 GQA 如何压缩 KV Cache。

  5. mha-vs-mla-full-derivation.mdarrow-up-right:看清 MLA 为什么能进一步压缩。

总览与入门

深度推导

对应源码

如果你只剩 20 分钟

最后更新于