DeepSeek 技术栈详解:从模型架构到 WideEP、DSpark、DFlash、DeepGEMM
0. 先说结论 DeepSeek 相关技术栈不能只理解成“一个模型”。它更像一整套围绕 MoE 大模型训练与推理 做出来的系统工程: * 模型层:DeepSeek-V3 / V3.2 的核心是 MLA、DeepSeekMoE、辅助损失无关的负载均衡、MTP、DSA。 * 通信层:DeepEP 负责 MoE expert parallelism 里的 token dispatch / comb