总体概览

目标岗位：LLM 推理/服务系统工程师（含 ML Systems、AI Infra 方向）预计周期：12 周（可按实际进度压缩/拉长）每周投入：工作日 2-3h + 周末 4-6h

一、当前仓库现状诊断

✅ 已做得好的

维度

状态

说明

数学字典 math_dictionary/

⭐⭐⭐⭐⭐

27 篇系统性公式速查，覆盖从线代到分布式推理，质量极高

KV Cache 面试题 mock_interview/by-topic/

⭐⭐⭐⭐

4 道深度系统设计题，含评分标准和追问，结构专业

高频考点分析 benchmarks/reports/

⭐⭐⭐⭐

15 个权威来源交叉验证，数据驱动的选题

项目结构

⭐⭐⭐⭐

目录清晰，分类合理，具备扩展性

❌ 需要补齐的短板

维度

状态

问题

Roadmap

🔴 空

没有学习路线，容易陷入"随机学习"

Notes 笔记

🔴 11 个空文件

有框架无内容，知识没有落地

代码实践 src/

🔴 空

core.py 空文件，无可运行的代码

面试题覆盖面

🟡 偏窄

仅有 KV cache 主题，缺少 Transformer 架构、分布式、训练等方向

Behavioral 面试

🔴 空

行为面试 0 准备

公司定向准备

🔴 空

无公司针对性

模型架构深度

🟡 缺失

缺少 Llama/Mixtral/DeepSeek 等主流架构的拆解

前沿论文跟踪

🟡 缺失

缺少 2025-2026 最新技术的笔记

端到端项目

🔴 缺失

没有可在面试中展示的完整项目

二、能力模型：顶尖候选人需要什么

┌─────────────────────────────────────────────────┐
│              LLM Inference Engineer              │
│                   能力金字塔                      │
├─────────────────────────────────────────────────┤
│  Level 5: 系统设计 & 技术判断力                    │
│  ┌─────────────────────────────────────────────┐│
│  │ 端到端推理系统设计、容量规划、成本优化        ││
│  │ 技术选型权衡、故障排查、SLO 保障             ││
│  └─────────────────────────────────────────────┘│
│  Level 4: 分布式系统 & 工程实践                    │
│  ┌─────────────────────────────────────────────┐│
│  │ TP/PP/EP、多卡通信、vLLM/TRT-LLM 源码       ││
│  │ CUDA kernel 优化、性能 profiling             ││
│  └─────────────────────────────────────────────┘│
│  Level 3: 推理优化核心技术                        │
│  ┌─────────────────────────────────────────────┐│
│  │ KV Cache、PagedAttention、FlashAttention     ││
│  │ 量化、剪枝、投机解码、Continuous Batching    ││
│  └─────────────────────────────────────────────┘│
│  Level 2: Transformer 架构理解                    │
│  ┌─────────────────────────────────────────────┐│
│  │ Attention、MHA/GQA/MQA、RoPE、FFN/MoE       ││
│  │ 主流模型架构：Llama3、Mixtral、DeepSeek-V3   ││
│  └─────────────────────────────────────────────┘│
│  Level 1: 数学与编程基础                          │
│  ┌─────────────────────────────────────────────┐│
│  │ 线性代数、概率、PyTorch、Python、CUDA 基础   ││
│  └─────────────────────────────────────────────┘│
└─────────────────────────────────────────────────┘

你当前的位置：Level 1-3 的理论知识（数学字典）已经很扎实，但 Level 2-5 的"实操 + 表达 + 深度"还需要大量强化。

三、12 周冲刺总纲

阶段

周数

主题

核心目标

Phase 1: 地基加固

W1-W3

Transformer 架构 + 模型拆解

能白板画出 Llama3/Mixtral 完整前向过程，口述每层参数

Phase 2: 推理核心

W4-W6

KV Cache + 注意力优化 + 量化

能设计 KV 缓存系统并写出关键代码

Phase 3: 系统实战

W7-W9

推理框架 + 分布式 + 性能调优

能分析 vLLM 源码、设计分布式推理方案

Phase 4: 综合冲刺

W10-W12

系统设计 + 行为面试 + 模拟面试

能 45 分钟内完成一道完整系统设计题

四、每日学习节奏（建议）

工作日（2-3h）：
├── 30min：复习昨日公式 + 口述练习（用 mental-math-cheatsheet）
├── 60min：主题深度学习（读笔记 → 写代码 → 做题）
└── 30-60min：1 道面试题模拟（限时口述 + 录音回听）

周末（4-6h/天）：
├── Day 1：论文/源码精读 + 代码实现
└── Day 2：系统设计模拟 + 回顾薄弱环节

五、关键原则

公式 → 代码 → 口述，三位一体
- 光看公式不写代码 = 纸上谈兵
- 光写代码不口述 = 面试时说不清
- 每个知识点必须走完「理解 → 实现 → 讲解」闭环
深度 > 广度
- 宁可 5 个主题讲到 9 分，不要 15 个主题都是 6 分
- KV Cache + 推理服务是你的主战场，必须做到行业 Top 1%
以面试为导向的学习
- 每学一个知识点，问自己：「面试官会怎么追问？」
- 每个笔记都要有「面试一句话」总结
代码即简历
- src/ 下的实现是面试时的加分项
- 目标：至少有 2-3 个可演示的迷你项目
及时复盘、间隔重复
- 用 benchmarks/ 追踪模拟面试评分
- 薄弱环节重新进入下周计划

详细 12 周计划请看 → 01-12week-plan.md

最后更新于13天前

晚上好

hashtag一、当前仓库现状诊断

hashtag✅ 已做得好的

hashtag❌ 需要补齐的短板

hashtag二、能力模型：顶尖候选人需要什么

hashtag三、12 周冲刺总纲

hashtag四、每日学习节奏（建议）

hashtag五、关键原则

一、当前仓库现状诊断

✅ 已做得好的

❌ 需要补齐的短板

二、能力模型：顶尖候选人需要什么

三、12 周冲刺总纲

四、每日学习节奏（建议）

五、关键原则