关注主流大模型在注意力、MoE、位置编码和混合架构上的设计差异。
Transformer 核心组件arrow-up-right
位置编码方案对比arrow-up-right
LLaMA 3 架构分析arrow-up-right
DeepSeek-V3 架构拆解arrow-up-right
Mixtral MoE 架构arrow-up-right
MoE 训练策略arrow-up-right
SSM 混合架构arrow-up-right
最后更新于13天前