GentleCold's Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 友链
  • 关于

Modular Cache-Aware Routing机制解析

本文基于Modular博客《Why LLM Inference Needs a New Kind of Router - Part 1 / Part 2》整理,重点分析其中的cache-aware routing数据层设计。原文发布时间为2026-05-08和2026-05-21。由于推理系统更新很快,具体实现细节应以Modular后续公开资料和实际系统为准。 1 先说结论 Modular这两篇
2026-06-05
笔记
#KV Cache #LLM #推理系统 #路由

Tile生态详解:TileLang、TileOPs、TileScale与TileRT

1. 先说结论 版本说明:本文参考的是2026-06-05访问的Tile-AI官方GitHub、PyPI、TileRT发布说明和TileLang论文。Tile生态还在快速演进,尤其是TileRT和TileScale,很多能力属于preview或实验阶段,生产使用要以具体release、wheel和硬件约束为准。 如果只用一句话理解Tile生态: TileLang负责写和编译tile级高性能ke
2026-06-05
笔记
#LLM Inference #TileLang #TileRT #GPU Kernel #Compiler

Kubernetes和Docker核心知识点详解

1. 先说结论 版本说明:本文写于2026-06-05,主要参考Docker官方文档和Kubernetes官方文档当前版本页面。Kubernetes官网当前文档导航已经展示到v1.36,但实际生产环境仍要以你集群里的版本为准: kubectl version kubectl get nodes -o wide kubectl describe node 如果只记一句话: Docker解决的
2026-06-05
笔记
#Kubernetes #Docker #Container #Cloud Native

llm-d项目详解:Kubernetes上的分布式LLM推理栈

1. 先说结论 版本说明:本文写于 2026-06-05,主要参考 llm-d 官方仓库 v0.7.0 release 和 v0.7.0 tag 文档。v0.7.0 在 GitHub 上的发布时间是 2026-05-12;我本地阅读的 tag 对应提交是 a47c3bd4e296c54b25f957f314317c974ad4ebbb,提交时间是 2026-05-12 14:40:21 -0400
2026-06-05
笔记
#KV Cache #LLM Inference #Kubernetes #llm-d #vLLM #Router

Irminsul论文详解:面向Agentic LLM Serving的MLA原生位置无关缓存

本文基于 arXiv:2605.05696v1《Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving》整理,论文提交日期为 2026-05-07,本文阅读日期为 2026-06-04。Irminsul仍是论文系统和参考脚手架,文中明确说明恢复率测量运行在 observer mode,端到端TTFT还依赖F
2026-06-04
论文阅读
#KV Cache #LLM #SGLang #推理系统 #MLA #Prefix Cache

NVIDIA TensorRT-LLM详解:架构、KV Cache、调度与部署实践

版本说明:本文基于2026-06-04访问的NVIDIA TensorRT-LLM官方文档、GitHub README、GitHub Releases API和功能文档整理。TensorRT-LLM更新很快,尤其是PyTorch backend、KV cache、量化、disaggregated serving和模型支持矩阵。写作时main分支README标注release-1.3.0rc18,G
2026-06-04
笔记
#KV Cache #LLM #推理系统 #TensorRT-LLM #NVIDIA

SGLang与RadixAttention机制分析

本文基于SGLang官方文档、2024年NeurIPS论文、LMSYS官方博客,以及2026-06-04拉取的SGLang源码e4191708c9d6整理。SGLang更新很快,具体实现细节应以当前源码为准。 1 先说结论 SGLang可以理解为两个部分: * 上层是面向LLM应用的编程接口,支持多轮对话、并行分支、约束解码、工具调用、结构化输出等常见工作流。 * 下层是高性能推理runt
2026-06-04
笔记
#KV Cache #LLM #SGLang #推理系统

EEP论文调研:让大规模MoE Expert Parallel推理扛住部分Rank故障

论文:Surviving Partial Rank Failures in Wide Expert-Parallel MoE Inference 作者:Xun Sun, Shaoyuan Chen, Pingchuan Ma, Yue Chen, Ziwei Yuan, Zhanhao Cao, Han Han, Shangming Cai, Teng Ma, Xuchun Shang, Xin
2026-06-01
笔记
#LLM Inference #CUDA Graph #MoE #Expert Parallelism #Fault Tolerance #SGLang #Mooncake #RDMA

ATOP到ZCube论文解析:大模型训练网络拓扑如何自动搜索

1. 先说结论 版本说明:本文参考的是 2026-05-21 访问的 Z.ai 在 X 上发布的文章入口、ACM DOI 页面、SIGCOMM 2025 官方论文列表、OpenAlex/Crossref 元数据,以及 everythinginsigcomm 对 SIGCOMM 2025 论文的公开记录。ACM PDF 当前对命令行抓取有 Cloudflare 挑战,因此本文不粘贴论文原文,只基于可
2026-05-21
笔记
#Networking #LLM Training #GPU Cluster #SIGCOMM #Topology #Datacenter

Neptune论文浅读:把FlashAttention式融合放进编译器

论文为:Neptune: Advanced ML Operator Fusion for Locality and Parallelism on GPUs 本文基于 arXiv:2510.08726v2,最后修订时间为 2026-04-20。论文已被 PLDI 2026 收录,代码仓库为 https://github.com/uiuc-arc/neptune 。 1 先说结论 Neptune
2026-05-20
论文阅读
#深度学习 #GPU #编译器 #FlashAttention
123…9

搜索

Hexo Fluid
载入运行时间...
总访问量 次 总访客数 人