Agentic场景下的KV Cache复用与Agent工作流详解 1. 先说结论 版本说明:本文写于2026-05-08,参考的是当天可访问的公开资料,包括Anthropic Prompt Caching文档、Claude Code官方文档、OpenAI Prompt Caching文档、vLLM Automatic Prefix Caching设计文档、SGLang/LMCache公开文档,以及一些论文和公开社区讨论。Claude Code存在社区逆向和泄露源 2026-05-08 笔记 #Agent #KV Cache #Prompt Cache #Claude Code #LLM Inference
IO基础:io_uring、NVMe测试指标与GPUDirect Storage 1. 先说结论 版本说明:本文参考的是2026-05-08访问的Linux man-pages io_uring(7)、fio官方文档和NVIDIA GPUDirect Storage cuFile API Reference。IO栈和GDS行为都和内核版本、文件系统、驱动、CUDA/GDS版本、NVMe拓扑强相关,实际测试要以本机环境为准。 这篇文章讲三件事: 1. Linux io_ur 2026-05-08 笔记 #IO #io_uring #NVMe #fio #GPUDirect Storage #cuFile
DeepSeek DSA、DeepSeek V4与vLLM Hybrid KV Cache详解 1. 先说结论 版本说明:本文参考的是2026-05-08访问的公开资料,主要包括DeepSeek-V3.2-Exp技术报告、vLLM官方DeepSeek V4支持博文、vLLM latest Hybrid KV Cache Manager设计文档、Mamba论文和HuggingFace Transformers的DeepSeek V4文档。vLLM latest文档是developer prev 2026-05-08 笔记 #KV Cache #DeepSeek #VLLM #Attention #Mamba
负载均衡策略与vLLM Router详解 1. 先说结论 版本说明:本文参考的是2026-05-08访问的vllm-project/router GitHub仓库和官方文档。这个项目仍在快速发展,具体参数、API和策略实现要以你实际部署的版本为准。 负载均衡的核心不是“平均分请求”这么简单,而是: 把请求分到最合适的后端,同时控制延迟、吞吐、缓存命中、故障隔离和扩缩容影响。 常见策略可以先这样理解: 策略核心思想优点缺点适合场景r 2026-05-08 笔记 #VLLM #Cache #Load Balancing #Router #Consistent Hash
vLLM最新版调度系统与Continuous Batching详解 1. 先说结论 版本说明:本文参考的是2026-05-08访问的vLLM官方latest文档和API源码页面。vLLM文档明确提示latest是developer preview,不等同于latest stable release。因此生产环境要以你实际安装的vLLM版本为准,最好用: vllm serve --help 确认参数是否存在。 这篇文章讲vLLM最新版调度系统,重点是: 1 2026-05-08 笔记 #KV Cache #LLM Inference #VLLM #Scheduler #Batch
vLLM推理并行与MLA详解 1. 先说结论 版本说明:本文参考的是2026-05-08访问的vLLM官方latest文档。vLLM文档页面明确提示latest是developer preview文档,不等同于latest stable release;因此DCP、PCP、EP等参数和行为最好以你实际安装的vLLM版本为准。生产环境建议同时查对应版本文档或直接用vllm serve --help确认参数是否存在。 vLLM里 2026-05-08 笔记 #KV Cache #LLM Inference #VLLM #Parallelism #MLA
Ran-CLOCK论文调研 论文:Performance Analysis of the Randomized SIEVE/CLOCK Cache Replacement Algorithm 作者:Yirong Wang, Peter Desnoyers, Benny Van Houdt 发表:Proc. ACM Meas. Anal. Comput. Syst., Vol. 10, No. 2, Article 49。 2026-05-08 笔记 #Cache #CLOCK #SIEVE #Mean Field
Foyer技术要点分析 资料: * Foyer: A Hybrid Cache in Rust - Past, Present and Future * Foyer docs.rs API * Foyer GitHub README 链接: * https://blog.mrcroxx.com/posts/foyer-a-hybrid-cache-in-rust-past-present-and-futur 2026-05-08 笔记 #Rust #Cache #Storage
HaS论文调研 论文:HaS: Accelerating RAG through Homology-Aware Speculative Retrieval 版本:arXiv:2604.20452v1, 2026-04-22 1. 背景 HaS讨论的是RAG系统里的检索延迟问题。 很多LLM推理优化关注prefill、decode、KV cache和attention kernel,但在真实RAG系统里,检索 2026-05-08 笔记 #LLM #RAG #Retrieval
InfoFlow KV论文调研 论文:InfoFlow KV: Information-Flow-Aware KV Recomputation for Long Context 版本:arXiv:2603.05353v1, 2026-03-05 1. 背景 InfoFlow KV讨论的是长上下文RAG推理里的KV cache预计算和选择性重计算问题。 在RAG里,系统经常需要把大量检索文档拼到prompt前面。上下文可以达 2026-05-08 笔记 #KV Cache #LLM #Long Context