GentleCold's Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 友链
  • 关于

Irminsul论文详解:面向Agentic LLM Serving的MLA原生位置无关缓存

本文基于 arXiv:2605.05696v1《Irminsul: MLA-Native Position-Independent Caching for Agentic LLM Serving》整理,论文提交日期为 2026-05-07,本文阅读日期为 2026-06-04。Irminsul仍是论文系统和参考脚手架,文中明确说明恢复率测量运行在 observer mode,端到端TTFT还依赖F
2026-06-04
论文阅读
#KV Cache #LLM #SGLang #推理系统 #MLA #Prefix Cache

NVIDIA TensorRT-LLM详解:架构、KV Cache、调度与部署实践

版本说明:本文基于2026-06-04访问的NVIDIA TensorRT-LLM官方文档、GitHub README、GitHub Releases API和功能文档整理。TensorRT-LLM更新很快,尤其是PyTorch backend、KV cache、量化、disaggregated serving和模型支持矩阵。写作时main分支README标注release-1.3.0rc18,G
2026-06-04
笔记
#KV Cache #LLM #推理系统 #TensorRT-LLM #NVIDIA

SGLang与RadixAttention机制分析

本文基于SGLang官方文档、2024年NeurIPS论文、LMSYS官方博客,以及2026-06-04拉取的SGLang源码e4191708c9d6整理。SGLang更新很快,具体实现细节应以当前源码为准。 1 先说结论 SGLang可以理解为两个部分: * 上层是面向LLM应用的编程接口,支持多轮对话、并行分支、约束解码、工具调用、结构化输出等常见工作流。 * 下层是高性能推理runt
2026-06-04
笔记
#KV Cache #LLM #SGLang #推理系统

EEP论文调研:让大规模MoE Expert Parallel推理扛住部分Rank故障

论文:Surviving Partial Rank Failures in Wide Expert-Parallel MoE Inference 作者:Xun Sun, Shaoyuan Chen, Pingchuan Ma, Yue Chen, Ziwei Yuan, Zhanhao Cao, Han Han, Shangming Cai, Teng Ma, Xuchun Shang, Xin
2026-06-01
笔记
#LLM Inference #CUDA Graph #MoE #Expert Parallelism #Fault Tolerance #SGLang #Mooncake #RDMA

ATOP到ZCube论文解析:大模型训练网络拓扑如何自动搜索

1. 先说结论 版本说明:本文参考的是 2026-05-21 访问的 Z.ai 在 X 上发布的文章入口、ACM DOI 页面、SIGCOMM 2025 官方论文列表、OpenAlex/Crossref 元数据,以及 everythinginsigcomm 对 SIGCOMM 2025 论文的公开记录。ACM PDF 当前对命令行抓取有 Cloudflare 挑战,因此本文不粘贴论文原文,只基于可
2026-05-21
笔记
#Networking #LLM Training #GPU Cluster #SIGCOMM #Topology #Datacenter

Neptune论文浅读:把FlashAttention式融合放进编译器

论文为:Neptune: Advanced ML Operator Fusion for Locality and Parallelism on GPUs 本文基于 arXiv:2510.08726v2,最后修订时间为 2026-04-20。论文已被 PLDI 2026 收录,代码仓库为 https://github.com/uiuc-arc/neptune 。 1 先说结论 Neptune
2026-05-20
论文阅读
#深度学习 #GPU #编译器 #FlashAttention

GDS与cuFile详解:API用法、cufile.json参数和最佳实践

1. 先说结论 版本说明:本文参考的是2026-05-20访问的NVIDIA GPUDirect Storage文档。NVIDIA文档页当前有一个需要注意的版本差异:Release Notes页面显示GDS v1.17,而API Reference、Configuration Guide、Best Practices Guide、Overview Guide等页面显示v1.16。本文会把相对稳定的
2026-05-20
笔记
#CUDA #cuFile #GDS #GPUDirect Storage #NVMe #IO

CUDA Stream、Event、异步 API 与内存传输机制详解

1. 先说结论 版本说明:本文参考的是2026-05-20访问的NVIDIA CUDA C++ Programming Guide 13.1.0 Legacy版、CUDA Runtime API 13.1.1文档,以及CUDA Runtime API里的API synchronization behavior、stream synchronization behavior、stream order
2026-05-20
笔记
#CUDA #GPU #Performance #Stream #Event #Memory

vLLM V1 KV Cache管理模块源码解析:KV Groups、布局与Hybrid管理

1. 先说结论 版本说明:本文以本机源码 /home/gentle/projects/my_rust/vllm 的 v0.19.0 tag 为主,提交是 2a69949bdadf0e8942b7a1619b229cb475beef20,提交日期是 2026-04-02。官方 stable 文档里的 Hybrid KV Cache Manager 设计页也明确提示这块功能仍在早期阶段,文档基于特定
2026-05-20
笔记
#KV Cache #LLM Inference #VLLM #PagedAttention #Hybrid Attention

LanceDB项目调研

版本说明 本文调研时间为2026年5月19日,主要参考LanceDB官方文档、LanceDB与Lance GitHub仓库、PyPI/npm/crates.io包源、Lance格式文档以及2025年的Lance/LanceDB研究论文。LanceDB和底层Lance格式仍在快速演进,尤其是SDK、索引类型、Enterprise能力和存储格式参数,生产使用前应以官方文档和对应SDK版本为准。 截至
2026-05-19
数据库
#数据库 #RAG #向量数据库 #LanceDB #Lance #多模态
123…8

搜索

Hexo Fluid
载入运行时间...
总访问量 次 总访客数 人