张量形状速查
1. 符号约定
符号
含义
典型值
2. 输入与线性投影
2.1 输入隐藏态
2.2 QKV 投影权重
2.3 投影后形状
3. 注意力计算形状流
3.1 注意力分数
3.2 缩放
3.3 因果掩码
3.4 Softmax
3.5 加权求和
3.6 拼接 + 输出投影
4. KV Cache 存储形状
4.1 每层 Cache
4.2 每 Token 元素数
4.3 Decode 时的 Append 操作
5. FFN 形状(SwiGLU 变体)
5.1 权重
5.2 计算流
6. GQA 广播机制详解
6.1 广播公式
6.2 实现方式
7. RoPE 位置编码作用形状
7.1 作用对象
7.2 旋转操作
8. 各架构形状对比总表
张量
MHA ($H_{\text{KV}}=H$)
GQA ($H_{\text{KV}}=H/g$)
MQA ($H_{\text{KV}}=1$)
面试一句话
最后更新于