成本优化

成本公式

cost_per_token = GPU_cost_per_hour / tokens_per_hour
cost_per_request = cost_per_token × (input_tokens + output_tokens)

优化维度

1. 提高吞吐（分子不变，分母变大）

KV 量化 (fp8) → 显存减半 → batch size ↑ → 吞吐 +30-50%
前缀缓存 → 重复 prefill 省掉 → 有效吞吐 ↑
Continuous Batching → 消除空泡
更大 batch size（在 SLO 允许范围内）

2. 降低单请求成本

投机解码 → 1.5-3× 加速（同 GPU 时间产出更多 token）
Prompt 压缩 → 减少输入 token 数
模型蒸馏 → 70B → 8B + 质量过滤

3. 降低硬件成本

混合精度部署：热模型 A100/H100，冷模型 CPU/较便宜 GPU
弹性伸缩：按需扩缩容
Spot instance：可中断场景（batch 推理）

成本对比示例

方案

成本/1M token

相对 baseline

H100 FP16 baseline

$3.00

1.0×

+ FP8 KV 量化

$2.10

0.7×

+ 前缀缓存 (50% hit)

$1.50

0.5×

+ 投机解码 (2×)

$0.75

0.25×

+ 蒸馏 70B→8B

$0.15

0.05×

注：数值为估算，实际因场景而异

面试一句话

"推理成本优化的组合拳：量化省显存→大 batch→高吞吐，前缀缓存省重复计算，投机解码省 decode 时间，蒸馏降模型规模。"

上一页容量规划下一页LLM 系统设计

最后更新于13天前