CUDA通信笔记:显存搬运、NVLink、IPC、NCCL与cuFile 1. 先说结论 版本说明:本文参考的是2026-05-15访问的NVIDIA官方文档。CUDA Runtime API页面显示CUDA Toolkit版本为13.2.1,最后更新日期为2026-04-09;CUDA Programming Guide为13.2,最后更新日期为2026-03-04;GDS cuFile API Reference为v1.16;NCCL文档为2.30.3。这些API和 2026-05-15 笔记 #CUDA #NVLink #NCCL #CUDA IPC #GPUDirect RDMA #cuFile #Multi GPU
PD分离调研:从推理阶段拆分到Mooncake的KVCache中心架构 1. 先说结论 版本说明:本文参考的是2026-05-15访问的kvcache-ai/Mooncake官方仓库、Mooncake FAST 2025论文、Mooncake官方文档、PyPI上的mooncake-transfer-engine发布页,以及本机/home/gentle/projects/my_rust/vllm里的MooncakeConnector源码。PyPI显示mooncake-t 2026-05-15 笔记 #KV Cache #LLM Inference #RDMA #Disaggregated Serving #Mooncake #vLLM
RDMA基础:数据到底是怎么被网卡搬走的 1. 先说结论 版本说明:本文参考的是2026-05-15访问的NVIDIA RDMA Aware Networks Programming User Manual、Linux kernel userspace verbs文档、linux-rdma/rdma-core文档、IETF RFC 5040、NVIDIA GPUDirect RDMA 13.2文档和NVIDIA RoCE文档。RDMA的核 2026-05-15 笔记 #GPUDirect RDMA #IO #RDMA #InfiniBand #RoCE #NIC #Networking
FlashAttention算法详解:从IO瓶颈到Triton实现 版本说明 本文写于 2026-05-13,主要参考 FlashAttention、FlashAttention-2、FlashAttention-3 论文,Dao-AILab 官方 flash-attention 仓库,以及 Triton 官方 fused attention tutorial。官方仓库当前已经列出 FlashAttention-4(CuTeDSL,面向 Hopper / Blac 2026-05-13 笔记 #LLM #CUDA #Triton
vLLM最新KV Connector API与推理调用链逐行解析 1. 先说结论 版本说明:本文参考的是2026-05-13访问的vllm-project/vllm官方GitHub tags和源码。远端稳定tag里已经有v0.20.2,并且还有v0.21.0rc1/rc2预发布tag;因此本文把v0.20.2作为“当前最新稳定版”来讲。vLLM的KV connector接口在源码里仍明确标注为experimental,所以生产环境要以你实际安装版本的源码和vll 2026-05-13 笔记 #KV Cache #LLM Inference #VLLM #NIXL #Disaggregated Serving
MLA模型结构详解:从公式到推理代码 先说结论 MLA(Multi-head Latent Attention,多头潜变量注意力)可以理解为一种面向大模型推理的 Attention 结构改造:它不再为每一层、每一个历史 token、每一个 attention head 都缓存完整的 Key 和 Value,而是把 Key/Value 共同压缩到一个低维 latent 向量里,推理时只缓存这个 latent 向量和一小段携带 RoPE 2026-05-13 论文阅读 #DeepSeek #Attention #大模型 #Transformer #推理优化
NIXL调研:面向LLM推理的数据搬运层 1. 先说结论 版本说明:本文参考的是2026-05-13访问的ai-dynamo/nixl官方仓库、NIXL overview、Backend Guide、Python API、NIXLBench文档和GitHub Release v1.1.0。截至本文写作时,GitHub最新正式release是v1.1.0,发布时间是2026-05-12。NIXL仍在快速演进,尤其是backend、Pytho 2026-05-13 笔记 #KV Cache #LLM #GPUDirect Storage #Inference #NIXL #Dynamo #RDMA
BalanceRoute论文详解:LLM Serving里的DP负载均衡瓶颈 论文:Tackling the Data-Parallel Load Balancing Bottleneck in LLM Serving: Practical Online Routing at Scale 作者:Tianci Bu, Yuan Lyu, Zixi Chen, Chendong Song, Hong Liang, Tsepten Gurung, Yuwei Fan, Yiny 2026-05-13 笔记 #KV Cache #LLM Inference #LLM #Load Balancing #VLLM #Data Parallelism
Hogwild! Inference论文调研 论文:Hogwild! Inference: Parallel LLM Generation via Concurrent Attention 作者:Gleb Rodionov, Roman Garipov, Alina Shutova, George Yakushev, Erik Schultheis, Vage Egiazarian, Anton Sinitsin, Denis Kuzned 2026-05-13 笔记 #Agent #KV Cache #LLM Inference #LLM #Parallel Inference
CUDA Graph深入浅出:从Launch Overhead到PyTorch实战 1. 先说结论 版本说明:本文写于2026-05-12,主要参考NVIDIA CUDA Programming Guide v13.2的CUDA Graphs章节、NVIDIA技术博客,以及PyTorch当前main文档里的CUDA semantics。CUDA Graph本身比较稳定,但不同CUDA Toolkit、驱动、GPU架构和框架版本的性能细节会变化,所以生产环境要以本机实测为准。 C 2026-05-12 笔记 #CUDA #CUDA Graph #GPU #PyTorch #Performance