数学字典

用来在最短时间内定位公式、变量定义、张量形状和量级估算。这个目录现在按 GitBook 连续阅读习惯重新整理，建议优先配合 SUMMARY.md 使用。

这部分适合什么时候看

面试前 15 分钟：先看符号表、张量形状、KV 显存、服务指标。
系统学习前：先统一符号和量纲，再进入长文笔记。
写代码前：先把张量形状和复杂度过一遍，避免实现时维度混乱。
做性能分析时：直接查 Prefill / Decode、Roofline、SLO、队列模型。

先看这 6 页

symbols-glossary.md：统一符号和单位。
tensor-shapes.md：Q / K / V、GQA、MoE 的形状速查。
transformer-attention-math.md：Attention、RoPE、Norm、FFN 的核心公式。
flashattention-math.md：在线 Softmax 与 IO 优化的详细推导。
kv-memory.md：KV Cache 显存估算与容量规划。
serving-metrics.md：TTFT、TPOT、吞吐、P99、Goodput。

按主题阅读

Transformer 核心

KV Cache 与推理性能

kv-memory.md：容量、层数、上下文长度和精度如何影响显存。
pagedattention-math.md：分页、碎片与 prefix caching。
kv-eviction-math.md：LRU、LFU、注意力感知驱逐。
kv-compression-math.md：量化、压缩误差与收益。
prefill-decode-performance.md：Prefill / Decode 的瓶颈差异。
attention-complexity.md：复杂度、FLOPs、Roofline。

服务与系统

serving-metrics.md：TTFT、TPOT、吞吐、Goodput 的定义和联系。
queueing-and-slo.md：排队论、尾延迟、SLO 与限流。
distributed-serving-math.md：TP、PP、EP、气泡率与负载均衡。
speculative-decoding-math.md：投机解码的接受率和加速比。
moe-routing-math.md：MoE 路由与负载均衡损失。

训练与对齐

optimization-and-scaling.md：优化器、Scaling Law、MFU。
lora-peft-math.md：LoRA、QLoRA、参数高效微调。
rlhf-alignment-math.md：Bradley-Terry、PPO、DPO、KTO。
evaluation-metrics.md：PPL、BLEU、ROUGE、win rate、统计显著性。

?????????

GitBook 友好写法约定

显示公式优先使用独立的 $$ ... $$ 块，避免把长公式塞进表格。
在表格里出现绝对值、范数、KL 时，优先写成 \lvert x \rvert、\lVert x \rVert、\parallel。
若某一页需要同时讲公式和实现，优先补一节“对应源码”，并从本目录回链过去。

上一页首页下一页符号速查

最后更新于13天前