这一层用于统一承载 tokenizer、模型、训练、推理、对齐和具体 recipe 的从零复现实现。
common/:公共工具与共享组件。
common/
tokenizer/:分词器与词表实验。
tokenizer/
model/:骨干网络与层级模块。
model/
data/:数据处理与数据集封装。
data/
training/:预训练、SFT、优化器、训练循环。
training/
inference/:生成、采样、缓存与推理工具。
inference/
alignment/:PPO、GRPO、DPO 等对齐训练相关逻辑。
alignment/
recipes/:按专题组织的复现路线,如 S1、GRPO、DAPO、MoE、多模态。
recipes/
目录骨架已经创建完成。
具体实现会优先按公共组件优先、recipe 后补的方式推进。
最后更新于13天前