Z.ai Scaling Pain解析:超大规模Coding Agent推理里的状态一致性问题
版本说明:本文写于 2026-06-29,主要解析 Z.ai 在 2026-04-30 发布的《Scaling Pain:超大规模 Coding Agent 推理实践》。原文披露的是 GLM-5 系列在高并发、长上下文 Coding Agent 线上负载中遇到的异常输出排查过程,包括 PD 分离下的 KV Cache 复用竞态、HiCache 加载时序缺失,以及 LayerSplit 优化。本文不