GentleCold's Blog

Modular Cache-Aware Routing机制解析

本文基于Modular博客《Why LLM Inference Needs a New Kind of Router - Part 1 / Part 2》整理，重点分析其中的cache-aware routing数据层设计。原文发布时间为2026-05-08和2026-05-21。由于推理系统更新很快，具体实现细节应以Modular后续公开资料和实际系统为准。 1 先说结论 Modular这两篇

2026-06-05

笔记

#KV Cache #LLM #推理系统 #路由

Tile生态详解：TileLang、TileOPs、TileScale与TileRT

1. 先说结论版本说明：本文参考的是2026-06-05访问的Tile-AI官方GitHub、PyPI、TileRT发布说明和TileLang论文。Tile生态还在快速演进，尤其是TileRT和TileScale，很多能力属于preview或实验阶段，生产使用要以具体release、wheel和硬件约束为准。如果只用一句话理解Tile生态： TileLang负责写和编译tile级高性能ke

2026-06-05

笔记

#LLM Inference #TileLang #TileRT #GPU Kernel #Compiler

Kubernetes和Docker核心知识点详解

1. 先说结论版本说明：本文写于2026-06-05，主要参考Docker官方文档和Kubernetes官方文档当前版本页面。Kubernetes官网当前文档导航已经展示到v1.36，但实际生产环境仍要以你集群里的版本为准： kubectl version kubectl get nodes -o wide kubectl describe node 如果只记一句话： Docker解决的

2026-06-05

笔记

#Kubernetes #Docker #Container #Cloud Native

llm-d项目详解：Kubernetes上的分布式LLM推理栈

1. 先说结论版本说明：本文写于 2026-06-05，主要参考 llm-d 官方仓库 v0.7.0 release 和 v0.7.0 tag 文档。v0.7.0 在 GitHub 上的发布时间是 2026-05-12；我本地阅读的 tag 对应提交是 a47c3bd4e296c54b25f957f314317c974ad4ebbb，提交时间是 2026-05-12 14:40:21 -0400

2026-06-05

笔记

#KV Cache #LLM Inference #Kubernetes #llm-d #vLLM #Router

Irminsul论文详解：面向Agentic LLM Serving的MLA原生位置无关缓存

本文基于 arXiv:2605.05696v1《Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving》整理，论文提交日期为 2026-05-07，本文阅读日期为 2026-06-04。Irminsul仍是论文系统和参考脚手架，文中明确说明恢复率测量运行在 observer mode，端到端TTFT还依赖F

2026-06-04

论文阅读

#KV Cache #LLM #SGLang #推理系统 #MLA #Prefix Cache

NVIDIA TensorRT-LLM详解：架构、KV Cache、调度与部署实践

版本说明：本文基于2026-06-04访问的NVIDIA TensorRT-LLM官方文档、GitHub README、GitHub Releases API和功能文档整理。TensorRT-LLM更新很快，尤其是PyTorch backend、KV cache、量化、disaggregated serving和模型支持矩阵。写作时main分支README标注release-1.3.0rc18，G

2026-06-04

笔记

#KV Cache #LLM #推理系统 #TensorRT-LLM #NVIDIA

SGLang与RadixAttention机制分析

本文基于SGLang官方文档、2024年NeurIPS论文、LMSYS官方博客，以及2026-06-04拉取的SGLang源码e4191708c9d6整理。SGLang更新很快，具体实现细节应以当前源码为准。 1 先说结论 SGLang可以理解为两个部分： * 上层是面向LLM应用的编程接口，支持多轮对话、并行分支、约束解码、工具调用、结构化输出等常见工作流。 * 下层是高性能推理runt

2026-06-04

笔记

#KV Cache #LLM #SGLang #推理系统

EEP论文调研：让大规模MoE Expert Parallel推理扛住部分Rank故障

论文：Surviving Partial Rank Failures in Wide Expert-Parallel MoE Inference 作者：Xun Sun, Shaoyuan Chen, Pingchuan Ma, Yue Chen, Ziwei Yuan, Zhanhao Cao, Han Han, Shangming Cai, Teng Ma, Xuchun Shang, Xin

2026-06-01

笔记

#LLM Inference #CUDA Graph #MoE #Expert Parallelism #Fault Tolerance #SGLang #Mooncake #RDMA

ATOP到ZCube论文解析：大模型训练网络拓扑如何自动搜索

1. 先说结论版本说明：本文参考的是 2026-05-21 访问的 Z.ai 在 X 上发布的文章入口、ACM DOI 页面、SIGCOMM 2025 官方论文列表、OpenAlex/Crossref 元数据，以及 everythinginsigcomm 对 SIGCOMM 2025 论文的公开记录。ACM PDF 当前对命令行抓取有 Cloudflare 挑战，因此本文不粘贴论文原文，只基于可

2026-05-21

笔记

#Networking #LLM Training #GPU Cluster #SIGCOMM #Topology #Datacenter

Neptune论文浅读：把FlashAttention式融合放进编译器

论文为：Neptune: Advanced ML Operator Fusion for Locality and Parallelism on GPUs 本文基于 arXiv:2510.08726v2，最后修订时间为 2026-04-20。论文已被 PLDI 2026 收录，代码仓库为 https://github.com/uiuc-arc/neptune 。 1 先说结论 Neptune

2026-05-20

论文阅读

#深度学习 #GPU #编译器 #FlashAttention