符号速查

这页不再追求“把全仓所有符号一次性列完”。它现在只保留跨专题最常用、最容易混掉的记号，并把你引到对应的深入页。用法很简单：先在这里统一读法，再去专题页看完整推导。

先记住这套读法约定

B：batch size，也可以理解成同一时刻的活跃请求数或活跃序列数。
T 或 L：序列长度；在 serving 里常对应上下文长度。
d_model：模型隐藏维度。
n_heads：query head 数。
d_head：单个 head 的维度。
n_kv_heads：KV head 数；在 GQA 里通常小于 n_heads。
rho：利用率；在排队论里通常表示系统是否接近满载。
lambda：到达率。
mu：服务率。
P99：99 分位时延或尾延迟。

如果某页里出现了同一字母在不同语境下复用，优先看该页开头的“符号约定”段，而不是死记这里的字典。

一、Attention / 张量形状高频符号

记号

含义

最常出现在哪

X

输入 hidden states

Transformer 核心公式、Attention 推导

Q

query 投影结果

Attention、GQA、MLA、DSA

K

key 投影结果

Attention、GQA、MLA、DSA

V

value 投影结果

Attention、GQA、MLA、DSA

B

batch size

张量形状、serving、训练

L 或 T

序列长度

Attention、长上下文、KV Cache

d_model

模型主维度

Transformer 核心公式

n_heads

query head 数

MHA、GQA、MLA

d_head

单头维度

Attention、RoPE、FlashAttention

继续深入：

二、KV Cache / 长上下文高频符号

记号

含义

最常出现在哪

n_kv_heads

KV head 数

GQA、MQA、KV Cache

group_size

一个 KV 组服务多少 query head

GQA

d_c

MLA 里共享潜变量的维度

MLA

d_r

与 RoPE 相关的独立维度

MLA

T_cache

当前缓存中的 token 长度

KV Cache、serving

bytes_per_token

单 token 的 KV 开销

KV 显存估算、serving

M_KV

KV Cache 总占用

KV 显存估算

k

稀疏注意力保留的候选 token 数

DSA、稀疏化

继续深入：

三、Serving / Queueing 高频符号

记号

含义

最常出现在哪

TTFT

首 token 时延

服务指标、SLO

TPOT

每输出 token 平均时延

服务指标、decode 性能

E2E

端到端时延

serving、排队与 SLO

lambda

到达率

排队与 SLO

mu

服务率

排队与 SLO

rho

利用率

排队与 SLO、admission

W_q

平均排队等待时间

M/M/1、M/G/1

L_q

平均队列长度

Little 定律、M/M/1

Goodput

满足 SLO 的有效吞吐

serving 指标

继续深入：

四、MoE / 训练高频符号

记号

含义

最常出现在哪

n_experts

expert 数量

MoE 路由

top_k

每个 token 选几个 expert

MoE 路由

capacity

单 expert 可接纳 token 上限

MoE serving

p_i

路由器给第 i 个 expert 的概率

MoE 数学

A, B

LoRA 的低秩矩阵

LoRA / PEFT

r

LoRA rank，或 Token Bucket 速率；语境很重要

训练、serving

beta

各类正则或偏好优化的权重

RLHF、DPO、KTO

继续深入：

五、最容易混掉的“同名不同义”

记号

在 Attention 里

在 Serving / 训练里

B

batch size

活跃请求数、活动序列数

T

序列长度

总观测时间、调度步数

r

低秩 rank 之类的局部记号

Token Bucket 的速率

k

top-k 选择数

DSA 的候选 token 数、MoE 的 expert 数

C

常表示压缩后的 latent cache

也可能表示 capacity

遇到这类冲突，最佳做法不是硬背，而是先看“它在描述模型结构、缓存结构，还是服务系统”。

六、按专题跳转，而不是按字母跳转

想统一 Attention 记号：去 transformer-attention-math.md
想统一 KV / 长上下文记号：去 kv-memory.md 和 ../notes/attention/mha-vs-gqa-full-derivation.md
想统一 Serving 记号：去 serving-metrics.md 和 queueing-and-slo.md
想统一 MoE / 训练记号：去 moe-routing-math.md 和 lora-peft-math.md

七、如果你只剩 5 分钟

先把这一页里的 B、L、d_model、n_heads、rho、lambda、mu 读熟。
再去看 tensor-shapes.md 和 serving-metrics.md。
如果你准备的是推理系统面试，再补 queueing-and-slo.md。

这一页记住一句话

符号表不该是一张越堆越厚的百科目录，而应该是一个“把读法统一之后，立刻把人送去专题页”的入口。真正的推导放在专题里，真正的速查只保留跨专题最常用的记号。

最后更新于13天前

早上好

hashtag先记住这套读法约定

hashtag一、Attention / 张量形状高频符号

hashtag二、KV Cache / 长上下文高频符号

hashtag三、Serving / Queueing 高频符号

hashtag四、MoE / 训练高频符号

hashtag五、最容易混掉的“同名不同义”

hashtag六、按专题跳转，而不是按字母跳转

hashtag七、如果你只剩 5 分钟

hashtag这一页记住一句话

先记住这套读法约定

一、Attention / 张量形状高频符号

二、KV Cache / 长上下文高频符号

三、Serving / Queueing 高频符号

四、MoE / 训练高频符号

五、最容易混掉的“同名不同义”

六、按专题跳转，而不是按字母跳转

七、如果你只剩 5 分钟

这一页记住一句话