KV 压缩

这一组笔记把 KV Compression 拆成两条互补主线:一条是“每个 token 占多少字节”的量化压缩,另一条是“保留哪些 token”的稀疏压缩。前者在数值精度上做折中,后者在上下文保留上做选择。

最推荐的阅读顺序

  1. formula-to-code-walkthrough.md:先把量化、误差、H2O / SnapKV 选择规则和源码对上。

  2. ../../math_dictionary/kv-compression-math.md:再看完整压缩比、误差传播和保留策略推导。

  3. quantization.md:补齐对称 / 非对称、per-tensor / per-channel 的工程判断。

  4. sparsity.md:再看 Heavy-Hitter、观测窗口、层间差异等稀疏思路。

  5. interview-qa.mdarrow-up-right:最后用问答形式复盘。

这一组专题覆盖什么

  • 量化:对称 / 非对称、per-channel、反量化、误差指标、压缩比。

  • 稀疏化:H2O、SnapKV、保留最近窗口、保留高分 token。

  • 工程权衡:显存收益、额外元数据开销、重算风险、对长上下文质量的影响。

对应源码

如果你只剩 20 分钟

最后更新于