CUDA Green Context机制解析 版本说明:本文写于 2026-06-15,主要参考 NVIDIA CUDA Driver API v13.3.0 Green Contexts 文档、CUDA 12.4 归档文档,以及 PyTorch main 分支中的 torch.cuda.green_contexts.GreenContext 文档。CUDA Green Context 仍在演进,尤其是 workqueue 配置、运行时封装和 2026-06-15 笔记 #CUDA #GPU #NVIDIA #推理系统 #性能优化
LMCache论文解析:把KV Cache变成企业级LLM推理的存储层 版本说明:本文基于 arXiv:2510.09665v2《LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference》整理。论文 v1 提交于 2025-10-08,v2 修订于 2025-12-05。本文重点解析论文中的系统动机、架构设计、接口、性能优化、评测结果和生产经验,不讨论本地 PegaFlow 项目实现 2026-06-13 笔记 #KV Cache #LLM Inference #SGLang #Disaggregated Serving #vLLM #LMCache
fabric-lib论文详解:面向LLM系统的可移植RDMA点对点通信 1. 先说结论 版本说明:本文写于 2026-06-12,主要参考 arXiv 上的 fabric-lib: RDMA Point-to-Point Communication for LLM Systems v2,论文标注日期为 2026-04-13,并结合 Perplexity AI 开源仓库 perplexityai/pplx-garden 的 fabric-lib 文档整理。fabric- 2026-06-12 笔记 #KV Cache #LLM Inference #MoE #RDMA #Disaggregated Serving #EFA #ConnectX
详细理解 Prometheus 和 Grafana 看板 资料说明:本文根据 2026-06-08 可访问的 Prometheus 与 Grafana 官方文档整理。Prometheus/Grafana 的基础模型很稳定,但具体版本、UI 菜单、云服务能力会持续变化,实际部署时仍应以官方文档为准。 先说结论 Prometheus 和 Grafana 经常一起出现,但它们不是同一个东西: * Prometheus 负责采集、存储、查询和告警“指标数据 2026-06-08 笔记 #Prometheus #Grafana #Observability #Monitoring
Modular Cache-Aware Routing机制解析 本文基于Modular博客《Why LLM Inference Needs a New Kind of Router - Part 1 / Part 2》整理,重点分析其中的cache-aware routing数据层设计。原文发布时间为2026-05-08和2026-05-21。由于推理系统更新很快,具体实现细节应以Modular后续公开资料和实际系统为准。 1 先说结论 Modular这两篇 2026-06-05 笔记 #KV Cache #LLM #推理系统 #路由
Tile生态详解:TileLang、TileOPs、TileScale与TileRT 1. 先说结论 版本说明:本文参考的是2026-06-05访问的Tile-AI官方GitHub、PyPI、TileRT发布说明和TileLang论文。Tile生态还在快速演进,尤其是TileRT和TileScale,很多能力属于preview或实验阶段,生产使用要以具体release、wheel和硬件约束为准。 如果只用一句话理解Tile生态: TileLang负责写和编译tile级高性能ke 2026-06-05 笔记 #LLM Inference #TileLang #TileRT #GPU Kernel #Compiler
Kubernetes和Docker核心知识点详解 1. 先说结论 版本说明:本文写于2026-06-05,主要参考Docker官方文档和Kubernetes官方文档当前版本页面。Kubernetes官网当前文档导航已经展示到v1.36,但实际生产环境仍要以你集群里的版本为准: kubectl version kubectl get nodes -o wide kubectl describe node 如果只记一句话: Docker解决的 2026-06-05 笔记 #Kubernetes #Docker #Container #Cloud Native
llm-d项目详解:Kubernetes上的分布式LLM推理栈 1. 先说结论 版本说明:本文写于 2026-06-05,主要参考 llm-d 官方仓库 v0.7.0 release 和 v0.7.0 tag 文档。v0.7.0 在 GitHub 上的发布时间是 2026-05-12;我本地阅读的 tag 对应提交是 a47c3bd4e296c54b25f957f314317c974ad4ebbb,提交时间是 2026-05-12 14:40:21 -0400 2026-06-05 笔记 #KV Cache #LLM Inference #Kubernetes #llm-d #vLLM #Router
Irminsul论文详解:面向Agentic LLM Serving的MLA原生位置无关缓存 本文基于 arXiv:2605.05696v1《Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving》整理,论文提交日期为 2026-05-07,本文阅读日期为 2026-06-04。Irminsul仍是论文系统和参考脚手架,文中明确说明恢复率测量运行在 observer mode,端到端TTFT还依赖F 2026-06-04 论文阅读 #KV Cache #LLM #推理系统 #SGLang #MLA #Prefix Cache
NVIDIA TensorRT-LLM详解:架构、KV Cache、调度与部署实践 版本说明:本文基于2026-06-04访问的NVIDIA TensorRT-LLM官方文档、GitHub README、GitHub Releases API和功能文档整理。TensorRT-LLM更新很快,尤其是PyTorch backend、KV cache、量化、disaggregated serving和模型支持矩阵。写作时main分支README标注release-1.3.0rc18,G 2026-06-04 笔记 #KV Cache #LLM #NVIDIA #推理系统 #TensorRT-LLM