LanceDB项目调研 版本说明 本文调研时间为2026年5月19日,主要参考LanceDB官方文档、LanceDB与Lance GitHub仓库、PyPI/npm/crates.io包源、Lance格式文档以及2025年的Lance/LanceDB研究论文。LanceDB和底层Lance格式仍在快速演进,尤其是SDK、索引类型、Enterprise能力和存储格式参数,生产使用前应以官方文档和对应SDK版本为准。 截至 2026-05-19 数据库 #数据库 #RAG #向量数据库 #LanceDB #Lance #多模态
Redis 深度调研 版本说明 本文写于 2026-05-19,主要参考 Redis 官方文档、官方博客和 GitHub release。Redis 是一个变化很快的项目,尤其是 Redis 8 以后把搜索、JSON、时序、概率结构等能力统一进 Redis Open Source,因此版本信息需要单独说明: * GitHub release 页面显示,8.6.3 是当前标记为 Latest 的稳定版本,发布时间为 2026-05-19 数据库 #数据库 #分布式 #Redis #缓存
Valkey项目调研 版本说明 本文调研时间为2026年5月19日,主要参考Valkey官网文档、Valkey GitHub Release、Linux Foundation公告、Redis官方许可证公告以及Valkey官方技术博客。Valkey是一个仍在快速演进的项目,因此版本相关结论需要以发布页为准。 截至本文调研时,Valkey GitHub Releases中最新稳定版为9.0.4,发布日期为2026年5月6 2026-05-19 数据库 #数据库 #Redis #缓存 #Valkey #开源
TileLang、torch.compile、JIT与AOT编译体系详解 1. 先说结论 版本说明:本文参考的是2026-05-18访问的PyTorch 2.12/main文档、TileLang 0.1.9文档、TileLang论文和Triton官方文档。PyTorch编译栈和TileLang都还在快速演进,生产环境要以实际安装版本为准。 最容易混淆的几个词,可以先这样理解: 1. JIT,Just-In-Time:运行时才根据真实代码路径、输入shape、dty 2026-05-18 笔记 #PyTorch #Compiler #TileLang #JIT #AOT #GPU Kernel
CUDA通信笔记:显存搬运、NVLink、IPC、NCCL与cuFile 1. 先说结论 版本说明:本文参考的是2026-05-15访问的NVIDIA官方文档。CUDA Runtime API页面显示CUDA Toolkit版本为13.2.1,最后更新日期为2026-04-09;CUDA Programming Guide为13.2,最后更新日期为2026-03-04;GDS cuFile API Reference为v1.16;NCCL文档为2.30.3。这些API和 2026-05-15 笔记 #CUDA #NVLink #NCCL #CUDA IPC #GPUDirect RDMA #cuFile #Multi GPU
PD分离调研:从推理阶段拆分到Mooncake的KVCache中心架构 1. 先说结论 版本说明:本文参考的是2026-05-15访问的kvcache-ai/Mooncake官方仓库、Mooncake FAST 2025论文、Mooncake官方文档、PyPI上的mooncake-transfer-engine发布页,以及本机/home/gentle/projects/my_rust/vllm里的MooncakeConnector源码。PyPI显示mooncake-t 2026-05-15 笔记 #KV Cache #LLM Inference #RDMA #Disaggregated Serving #Mooncake #vLLM
RDMA基础:数据到底是怎么被网卡搬走的 1. 先说结论 版本说明:本文参考的是2026-05-15访问的NVIDIA RDMA Aware Networks Programming User Manual、Linux kernel userspace verbs文档、linux-rdma/rdma-core文档、IETF RFC 5040、NVIDIA GPUDirect RDMA 13.2文档和NVIDIA RoCE文档。RDMA的核 2026-05-15 笔记 #GPUDirect RDMA #IO #RDMA #InfiniBand #RoCE #NIC #Networking
FlashAttention算法详解:从IO瓶颈到Triton实现 版本说明 本文写于 2026-05-13,主要参考 FlashAttention、FlashAttention-2、FlashAttention-3 论文,Dao-AILab 官方 flash-attention 仓库,以及 Triton 官方 fused attention tutorial。官方仓库当前已经列出 FlashAttention-4(CuTeDSL,面向 Hopper / Blac 2026-05-13 笔记 #LLM #CUDA #Triton
vLLM最新KV Connector API与推理调用链逐行解析 1. 先说结论 版本说明:本文最初按2026-05-13访问到的v0.20.2整理;2026-05-17复核vllm-project/vllm远端tag后,稳定tag已经推进到v0.21.0,后面还出现了v0.21.1rc0预发布tag。因此本文把v0.21.0作为“当前最新稳定版”来标注,主调用链仍保留v0.20.2以来的核心结构。KV connector接口在源码里仍明确标注为experime 2026-05-13 笔记 #KV Cache #LLM Inference #VLLM #NIXL #Disaggregated Serving
MLA模型结构详解:从公式到推理代码 先说结论 MLA(Multi-head Latent Attention,多头潜变量注意力)可以理解为一种面向大模型推理的 Attention 结构改造:它不再为每一层、每一个历史 token、每一个 attention head 都缓存完整的 Key 和 Value,而是把 Key/Value 共同压缩到一个低维 latent 向量里,推理时只缓存这个 latent 向量和一小段携带 RoPE 2026-05-13 论文阅读 #DeepSeek #Attention #大模型 #Transformer #推理优化