GentleCold's Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 友链
  • 关于

HTTP/1.1、HTTP/2 与 gRPC 原理笔记

1. HTTP/1.1 vs HTTP/2 1.1 HTTP/1.1 的核心瓶颈 加载一个网页需要 HTML + 10个CSS + 20个JS: 连接1: [请求HTML ]──[响应HTML ] 连接2: [请求CSS1 ]──[响应CSS1 ] 连接3: [请求CSS2 ]──[响应CSS2 ] ...(浏览器最多同时开6个TCP连接,其余排队等待) 队头阻塞(Head-of-Line B
2026-04-14
笔记
#分布式系统 #gRPC #网络 #HTTP

分布式系统与AI基础设施笔记

1. Ray 与 Ray Data 1.1 Ray Ray 是一个分布式计算框架,专为 Python 设计,核心目标是让单机代码轻松扩展到集群。 核心抽象: * Task:无状态函数,@ray.remote 装饰后异步并行执行 * Actor:有状态对象,分布式进程,维护内部状态 * Object Store:共享内存对象存储,跨进程/节点零拷贝传输 @ray.remote def p
2026-04-13
笔记
#分布式系统 #Ray #gRPC #微服务 #RAG #消息队列

从NVMe磁盘安装到GDS支持

1. 安装前准备 首先检查哪些PCIe插槽是空的: sudo dmidecode -t slot 大概确定好要插的位置 服务器关机、断电、将NVMe插入PCIe插槽 2. 磁盘初始化 lspci检查安装是否被识别: 可见其型号为:Intel Corporation NVMe Datacenter SSD [Optane],与GPU0最接近 安装对应工具Intel mas工具初始化
2026-04-10
Linux
#Linux #nvme

VLLM KV Connector解析

初始化 vllmConfig.__post_init__()会初始化KVTransferConfig,然后在scheduler/worker侧根据kv_connector类型实例化对应的connector(KVConnectorFactory.create_connector) 对于offloading connector,首先初始化spec(OffloadingSpecFactory.crea
2026-03-09
笔记
#VLLM

CUDA笔记

Cuda Mode * 使用load_inline函数可以bind cpp to python * ncu profiler * torch -> triton: TORCH_LOGS = "OUTPUT_CODE" python square_compile.py with torch.compile * 修饰符:
2025-10-09
笔记
#CUDA

pruning技术调研

Basic * struct / unstruct / semi-struct THINK: THINNER KEY CACHE BY QUERY-DRIVEN PRUNING * 结构化稀疏 hidden_size维度的稀疏,用mask * 双kv cache缓存(已剪枝缓存/未剪枝缓存) Mustafar: Promoting Unstructured Sparsity f
2025-09-08
笔记
#LLM #Pruning

以nano-vllm和qwen3为例详解大模型推理过程

源码仅1200行纯python,十分推荐观看: https://github.com/GeeeekExplorer/nano-vllm 另外关于vllm的逻辑: https://www.aleksagordic.com/blog/vllm 1. qwen3模型结构和推理过程(prefill) 1.1 分词器 分词器的作用是将文本(str)编码为整数序列(list[int]) 需要预先训练
2025-09-02
笔记
#LLM

CMU10414-Fall2022课程笔记

课程笔记 softmax * 监督学习/无监督学习 * 假设函数/损失函数/优化方法 * 有些err函数是不可微分的,所以用softmax(激活函数,引入非线性层)->交叉熵(-log)作为损失函数 * 转换为优化问题,使用梯度下降/随机梯度下降 设mmm为样本数,nnn为特征数,kkk为分类数 h(x)h(x)h(x)为假设函数,hy(x)h_y(x)hy​(x)为在la
2025-06-19
笔记
#笔记 #CMU #深度学习

CS336-Spring2025课程笔记

课程笔记 overview * prefill: compute-bound / decode: memory bound * scaling laws: * tokenizer: https://tiktokenizer.vercel.app/ * byte pair encoding(BPE) resource counting * float32 / float16 /
2025-06-19
笔记
#笔记 #LLM

VLLM测试

1. 数据集 imdb影评情感分析数据集:http://ai.stanford.edu/~amaas/data/sentiment/ csv文件,格式类似如下: reviewsentimenttext…postivetext…negtive2. 测试 使用模型:NousResearch/Hermes-3-Llama-3.1-8B 使用显卡:单张H800 模型最大上下文限制为(prompt
2025-06-19
实验
#VLLM
1234

搜索

Hexo Fluid
载入运行时间...
总访问量 次 总访客数 人