NIXL调研:面向LLM推理的数据搬运层 1. 先说结论 版本说明:本文参考的是2026-05-13访问的ai-dynamo/nixl官方仓库、NIXL overview、Backend Guide、Python API、NIXLBench文档和GitHub Release v1.1.0。截至本文写作时,GitHub最新正式release是v1.1.0,发布时间是2026-05-12。NIXL仍在快速演进,尤其是backend、Pytho 2026-05-13 笔记 #KV Cache #LLM #GPUDirect Storage #Inference #NIXL #Dynamo #RDMA
BalanceRoute论文详解:LLM Serving里的DP负载均衡瓶颈 论文:Tackling the Data-Parallel Load Balancing Bottleneck in LLM Serving: Practical Online Routing at Scale 作者:Tianci Bu, Yuan Lyu, Zixi Chen, Chendong Song, Hong Liang, Tsepten Gurung, Yuwei Fan, Yiny 2026-05-13 笔记 #KV Cache #LLM Inference #LLM #Load Balancing #VLLM #Data Parallelism
Hogwild! Inference论文调研 论文:Hogwild! Inference: Parallel LLM Generation via Concurrent Attention 作者:Gleb Rodionov, Roman Garipov, Alina Shutova, George Yakushev, Erik Schultheis, Vage Egiazarian, Anton Sinitsin, Denis Kuzned 2026-05-13 笔记 #Agent #KV Cache #LLM Inference #LLM #Parallel Inference
CUDA Graph深入浅出:从Launch Overhead到PyTorch实战 1. 先说结论 版本说明:本文写于2026-05-12,主要参考NVIDIA CUDA Programming Guide v13.2的CUDA Graphs章节、NVIDIA技术博客,以及PyTorch当前main文档里的CUDA semantics。CUDA Graph本身比较稳定,但不同CUDA Toolkit、驱动、GPU架构和框架版本的性能细节会变化,所以生产环境要以本机实测为准。 C 2026-05-12 笔记 #CUDA #CUDA Graph #GPU #PyTorch #Performance
MTP机制详解:从多token预测到投机解码 1. 先说结论 版本说明:本文写于2026-05-12,主要参考DeepSeek-V3技术报告、DeepSeek-V3官方权重说明、Gloeckle等人的Multi-token Prediction论文、Leviathan等人的Speculative Decoding论文,以及Google在2026-05-05发布的Gemma 4 MTP文档。MTP相关工程实现仍在快速变化,尤其是推理框架对MTP 2026-05-12 笔记 #LLM #DeepSeek #MTP #Speculative Decoding #Inference
主流开源大模型参数规模调研 本文重新整理截至 2026-05-09 的主流开源/开放权重大模型参数规模、模型大小、上下文长度、许可证和部署取舍。本文只把能在官方博客、官方 API 文档、官方 Hugging Face 组织或技术报告中核到的模型写进主表;社区传闻、路由商别名和第三方镜像不作为主依据。 先说结论 2026 年上半年的开放模型变化很明显:大厂开放模型已经从 7B/70B dense 时代,进入“超大总参数 + 2026-05-09 笔记 #LLM #OpenSource #Model
KVFlow论文调研 论文:KVFlow: Efficient Prefix Caching for Accelerating LLM-Based Multi-Agent Workflows 作者:Zaifeng Pan, Ajjkumar Patel, Zhengding Hu, Yipeng Shen, Yue Guan, Wan-Lu Li, Lianhui Qin, Yufei Ding 版本:arXiv: 2026-05-08 笔记 #Agent #KV Cache #LLM Inference #LLM #Prefix Cache
Agentic场景下的KV Cache复用与Agent工作流详解 1. 先说结论 版本说明:本文写于2026-05-08,参考的是当天可访问的公开资料,包括Anthropic Prompt Caching文档、Claude Code官方文档、OpenAI Prompt Caching文档、vLLM Automatic Prefix Caching设计文档、SGLang/LMCache公开文档,以及一些论文和公开社区讨论。Claude Code存在社区逆向和泄露源 2026-05-08 笔记 #Agent #KV Cache #Prompt Cache #Claude Code #LLM Inference
IO基础:io_uring、NVMe测试指标与GPUDirect Storage 1. 先说结论 版本说明:本文参考的是2026-05-08访问的Linux man-pages io_uring(7)、fio官方文档和NVIDIA GPUDirect Storage cuFile API Reference。IO栈和GDS行为都和内核版本、文件系统、驱动、CUDA/GDS版本、NVMe拓扑强相关,实际测试要以本机环境为准。 这篇文章讲三件事: 1. Linux io_ur 2026-05-08 笔记 #IO #io_uring #NVMe #fio #GPUDirect Storage #cuFile
DeepSeek DSA、DeepSeek V4与vLLM Hybrid KV Cache详解 1. 先说结论 版本说明:本文参考的是2026-05-08访问的公开资料,主要包括DeepSeek-V3.2-Exp技术报告、vLLM官方DeepSeek V4支持博文、vLLM latest Hybrid KV Cache Manager设计文档、Mamba论文和HuggingFace Transformers的DeepSeek V4文档。vLLM latest文档是developer prev 2026-05-08 笔记 #KV Cache #VLLM #DeepSeek #Attention #Mamba