GentleCold's Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 友链
  • 关于

主流开源大模型参数规模调研

本文重新整理截至 2026-05-09 的主流开源/开放权重大模型参数规模、模型大小、上下文长度、许可证和部署取舍。本文只把能在官方博客、官方 API 文档、官方 Hugging Face 组织或技术报告中核到的模型写进主表;社区传闻、路由商别名和第三方镜像不作为主依据。 先说结论 2026 年上半年的开放模型变化很明显:大厂开放模型已经从 7B/70B dense 时代,进入“超大总参数 +
2026-05-09
笔记
#LLM #OpenSource #Model

KVFlow论文调研

论文:KVFlow: Efficient Prefix Caching for Accelerating LLM-Based Multi-Agent Workflows 作者:Zaifeng Pan, Ajjkumar Patel, Zhengding Hu, Yipeng Shen, Yue Guan, Wan-Lu Li, Lianhui Qin, Yufei Ding 版本:arXiv:
2026-05-08
笔记
#Agent #KV Cache #LLM Inference #LLM #Prefix Cache

Agentic场景下的KV Cache复用与Agent工作流详解

1. 先说结论 版本说明:本文写于2026-05-08,参考的是当天可访问的公开资料,包括Anthropic Prompt Caching文档、Claude Code官方文档、OpenAI Prompt Caching文档、vLLM Automatic Prefix Caching设计文档、SGLang/LMCache公开文档,以及一些论文和公开社区讨论。Claude Code存在社区逆向和泄露源
2026-05-08
笔记
#Agent #KV Cache #Prompt Cache #Claude Code #LLM Inference

IO基础:io_uring、NVMe测试指标与GPUDirect Storage

1. 先说结论 版本说明:本文参考的是2026-05-08访问的Linux man-pages io_uring(7)、fio官方文档和NVIDIA GPUDirect Storage cuFile API Reference。IO栈和GDS行为都和内核版本、文件系统、驱动、CUDA/GDS版本、NVMe拓扑强相关,实际测试要以本机环境为准。 这篇文章讲三件事: 1. Linux io_ur
2026-05-08
笔记
#IO #io_uring #NVMe #fio #GPUDirect Storage #cuFile

DeepSeek DSA、DeepSeek V4与vLLM Hybrid KV Cache详解

1. 先说结论 版本说明:本文参考的是2026-05-08访问的公开资料,主要包括DeepSeek-V3.2-Exp技术报告、vLLM官方DeepSeek V4支持博文、vLLM latest Hybrid KV Cache Manager设计文档、Mamba论文和HuggingFace Transformers的DeepSeek V4文档。vLLM latest文档是developer prev
2026-05-08
笔记
#KV Cache #DeepSeek #VLLM #Attention #Mamba

负载均衡策略与vLLM Router详解

1. 先说结论 版本说明:本文参考的是2026-05-08访问的vllm-project/router GitHub仓库和官方文档。这个项目仍在快速发展,具体参数、API和策略实现要以你实际部署的版本为准。 负载均衡的核心不是“平均分请求”这么简单,而是: 把请求分到最合适的后端,同时控制延迟、吞吐、缓存命中、故障隔离和扩缩容影响。 常见策略可以先这样理解: 策略核心思想优点缺点适合场景r
2026-05-08
笔记
#VLLM #Cache #Load Balancing #Router #Consistent Hash

vLLM最新版调度系统与Continuous Batching详解

1. 先说结论 版本说明:本文参考的是2026-05-08访问的vLLM官方latest文档和API源码页面。vLLM文档明确提示latest是developer preview,不等同于latest stable release。因此生产环境要以你实际安装的vLLM版本为准,最好用: vllm serve --help 确认参数是否存在。 这篇文章讲vLLM最新版调度系统,重点是: 1
2026-05-08
笔记
#KV Cache #LLM Inference #VLLM #Scheduler #Batch

vLLM推理并行与MLA详解

1. 先说结论 版本说明:本文参考的是2026-05-08访问的vLLM官方latest文档。vLLM文档页面明确提示latest是developer preview文档,不等同于latest stable release;因此DCP、PCP、EP等参数和行为最好以你实际安装的vLLM版本为准。生产环境建议同时查对应版本文档或直接用vllm serve --help确认参数是否存在。 vLLM里
2026-05-08
笔记
#KV Cache #LLM Inference #VLLM #Parallelism #MLA

Ran-CLOCK论文调研

论文:Performance Analysis of the Randomized SIEVE/CLOCK Cache Replacement Algorithm 作者:Yirong Wang, Peter Desnoyers, Benny Van Houdt 发表:Proc. ACM Meas. Anal. Comput. Syst., Vol. 10, No. 2, Article 49。
2026-05-08
笔记
#Cache #CLOCK #SIEVE #Mean Field

Foyer技术要点分析

资料: * Foyer: A Hybrid Cache in Rust - Past, Present and Future * Foyer docs.rs API * Foyer GitHub README 链接: * https://blog.mrcroxx.com/posts/foyer-a-hybrid-cache-in-rust-past-present-and-futur
2026-05-08
笔记
#Rust #Cache #Storage
123…6

搜索

Hexo Fluid
载入运行时间...
总访问量 次 总访客数 人