KV Cache 核心概念
为什么需要 KV Cache?
KV Cache 存什么?
每 token KV 大小公式
bytes_per_token = 2 × n_layers × n_kv_heads × head_dim × bytes_per_elemPrefill vs Decode 阶段
阶段
处理 token 数
瓶颈
KV 行为
KV Cache 生命周期
面试一句话
最后更新于