文本块长度:L1 Basic prompt长度:L2 一条Prompt包含的文本块数量:x 总的文本块数量:n 那么一共有n/xn/xn/x条prompt 对于一条prompt的推理,比较严谨的一种时间复杂度为(N为prompt长度,d为特征维度,α\alphaα、β\betaβ为常量系数,biasbiasbias为潜在的可能和x有关的时间开销): αN2d(点积计算)+βNd2(线性
CMU10414-Fall2022课程笔记
课程笔记 softmax * 监督学习/无监督学习 * 假设函数/损失函数/优化方法 * 有些err函数是不可微分的,所以用softmax(激活函数,引入非线性层)->交叉熵(-log)作为损失函数 * 转换为优化问题,使用梯度下降/随机梯度下降 设mmm为样本数,nnn为特征数,kkk为分类数 h(x)h(x)h(x)为假设函数,hy(x)h_y(x)hy(x)为在la
CS336-Spring2025课程笔记
课程笔记 overview * prefill: compute-bound / decode: memory bound * scaling laws: * tokenizer: https://tiktokenizer.vercel.app/ * byte pair encoding(BPE) resource counting * float32 / float16 /
VLLM测试
1. 数据集 imdb影评情感分析数据集:http://ai.stanford.edu/~amaas/data/sentiment/ csv文件,格式类似如下: reviewsentimenttext…postivetext…negtive2. 测试 使用模型:NousResearch/Hermes-3-Llama-3.1-8B 使用显卡:单张H800 模型最大上下文限制为(prompt
VLLM与大模型推理框架
VLLM VLLM v1 代码整体流程,代码版本v0.8.5 调度部分,先调度running队列,再调度waiting队列。 https://zhuanlan.zhihu.com/p/1908153627639551302 关于抢占,抢占只是释放block不再进行运算,实际等到根据LRU策略去替换block时才会真正抢占。 KV Cache 当前Q乘缓存的K,再乘缓存的V,得到
Self-Tuning Query Scheduling论文浅读
论文为:Self-Tuning Query Scheduling for Analytical Workloads sigmod 2021 https://15721.courses.cs.cmu.edu/spring2024/papers/08-scheduling/wagner-sigmod21.pdf 1 Introduction 本文提出一种自适应的调度优化策略,在高负载下的查询分析
CMU15721-Spring2024课程笔记
some papers that worth to read: // todo Overview * data cubes -> data warehouses -> shared-disk -> lakehouse * ETL tool * push query to data / pull data to query * shared-nothing / shared-disk