成本优化
成本公式
cost_per_token = GPU_cost_per_hour / tokens_per_hour
cost_per_request = cost_per_token × (input_tokens + output_tokens)优化维度
1. 提高吞吐(分子不变,分母变大)
2. 降低单请求成本
3. 降低硬件成本
成本对比示例
方案
成本/1M token
相对 baseline
面试一句话
最后更新于