GentleCold's Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 友链
  • 关于

Neptune论文浅读:把FlashAttention式融合放进编译器

论文为:Neptune: Advanced ML Operator Fusion for Locality and Parallelism on GPUs 本文基于 arXiv:2510.08726v2,最后修订时间为 2026-04-20。论文已被 PLDI 2026 收录,代码仓库为 https://github.com/uiuc-arc/neptune 。 1 先说结论 Neptune
2026-05-20
论文阅读
#深度学习 #GPU #编译器 #FlashAttention

GDS与cuFile详解:API用法、cufile.json参数和最佳实践

1. 先说结论 版本说明:本文参考的是2026-05-20访问的NVIDIA GPUDirect Storage文档。NVIDIA文档页当前有一个需要注意的版本差异:Release Notes页面显示GDS v1.17,而API Reference、Configuration Guide、Best Practices Guide、Overview Guide等页面显示v1.16。本文会把相对稳定的
2026-05-20
笔记
#CUDA #cuFile #GDS #GPUDirect Storage #NVMe #IO

CUDA Stream、Event、异步 API 与内存传输机制详解

1. 先说结论 版本说明:本文参考的是2026-05-20访问的NVIDIA CUDA C++ Programming Guide 13.1.0 Legacy版、CUDA Runtime API 13.1.1文档,以及CUDA Runtime API里的API synchronization behavior、stream synchronization behavior、stream order
2026-05-20
笔记
#CUDA #GPU #Performance #Stream #Event #Memory

vLLM V1 KV Cache管理模块源码解析:KV Groups、布局与Hybrid管理

1. 先说结论 版本说明:本文以本机源码 /home/gentle/projects/my_rust/vllm 的 v0.19.0 tag 为主,提交是 2a69949bdadf0e8942b7a1619b229cb475beef20,提交日期是 2026-04-02。官方 stable 文档里的 Hybrid KV Cache Manager 设计页也明确提示这块功能仍在早期阶段,文档基于特定
2026-05-20
笔记
#KV Cache #LLM Inference #VLLM #PagedAttention #Hybrid Attention

LanceDB项目调研

版本说明 本文调研时间为2026年5月19日,主要参考LanceDB官方文档、LanceDB与Lance GitHub仓库、PyPI/npm/crates.io包源、Lance格式文档以及2025年的Lance/LanceDB研究论文。LanceDB和底层Lance格式仍在快速演进,尤其是SDK、索引类型、Enterprise能力和存储格式参数,生产使用前应以官方文档和对应SDK版本为准。 截至
2026-05-19
数据库
#数据库 #RAG #向量数据库 #LanceDB #Lance #多模态

Redis 深度调研

版本说明 本文写于 2026-05-19,主要参考 Redis 官方文档、官方博客和 GitHub release。Redis 是一个变化很快的项目,尤其是 Redis 8 以后把搜索、JSON、时序、概率结构等能力统一进 Redis Open Source,因此版本信息需要单独说明: * GitHub release 页面显示,8.6.3 是当前标记为 Latest 的稳定版本,发布时间为
2026-05-19
数据库
#数据库 #分布式 #Redis #缓存

Valkey项目调研

版本说明 本文调研时间为2026年5月19日,主要参考Valkey官网文档、Valkey GitHub Release、Linux Foundation公告、Redis官方许可证公告以及Valkey官方技术博客。Valkey是一个仍在快速演进的项目,因此版本相关结论需要以发布页为准。 截至本文调研时,Valkey GitHub Releases中最新稳定版为9.0.4,发布日期为2026年5月6
2026-05-19
数据库
#数据库 #Redis #缓存 #Valkey #开源

TileLang、torch.compile、JIT与AOT编译体系详解

1. 先说结论 版本说明:本文参考的是2026-05-18访问的PyTorch 2.12/main文档、TileLang 0.1.9文档、TileLang论文和Triton官方文档。PyTorch编译栈和TileLang都还在快速演进,生产环境要以实际安装版本为准。 最容易混淆的几个词,可以先这样理解: 1. JIT,Just-In-Time:运行时才根据真实代码路径、输入shape、dty
2026-05-18
笔记
#PyTorch #Compiler #TileLang #JIT #AOT #GPU Kernel

CUDA通信笔记:显存搬运、NVLink、IPC、NCCL与cuFile

1. 先说结论 版本说明:本文参考的是2026-05-15访问的NVIDIA官方文档。CUDA Runtime API页面显示CUDA Toolkit版本为13.2.1,最后更新日期为2026-04-09;CUDA Programming Guide为13.2,最后更新日期为2026-03-04;GDS cuFile API Reference为v1.16;NCCL文档为2.30.3。这些API和
2026-05-15
笔记
#CUDA #NVLink #NCCL #CUDA IPC #GPUDirect RDMA #cuFile #Multi GPU

PD分离调研:从推理阶段拆分到Mooncake的KVCache中心架构

1. 先说结论 版本说明:本文参考的是2026-05-15访问的kvcache-ai/Mooncake官方仓库、Mooncake FAST 2025论文、Mooncake官方文档、PyPI上的mooncake-transfer-engine发布页,以及本机/home/gentle/projects/my_rust/vllm里的MooncakeConnector源码。PyPI显示mooncake-t
2026-05-15
笔记
#KV Cache #LLM Inference #RDMA #Disaggregated Serving #Mooncake #vLLM
123…8

搜索

Hexo Fluid
载入运行时间...
总访问量 次 总访客数 人