MoE 推理优化深入
1. MoE 基础回顾
结构
参数量 vs 计算量
模型
总参数
激活参数
Experts
Top-K
2. Expert Parallelism (EP)
原理
通信模式
通信量分析
3. 负载均衡
问题
解决方案
3.1 辅助损失(Auxiliary Loss)
3.2 Capacity Factor
3.3 Token Dropping
DeepSeek-V3 的改进
4. 推理优化技巧
4.1 Expert Buffering
4.2 Expert Quantization
4.3 Expert Pruning
4.4 Shared Expert + Routed Expert
5. EP + TP/PP 组合
典型配置(以 8×H100 为例)
All-to-All 优化
6. 面试回答模板
追问准备
最后更新于