GentleCold's Blog
  • 首页
  • 归档
  • 分类
  • 标签
  • 友链
  • 关于

文本块长度:L1 Basic prompt长度:L2 一条Prompt包含的文本块数量:x 总的文本块数量:n 那么一共有n/xn/xn/x条prompt 对于一条prompt的推理,比较严谨的一种时间复杂度为(N为prompt长度,d为特征维度,α\alphaα、β\betaβ为常量系数,biasbiasbias为潜在的可能和x有关的时间开销): αN2d(点积计算)+βNd2(线性
2025-07-22

CMU10414-Fall2022课程笔记

课程笔记 softmax * 监督学习/无监督学习 * 假设函数/损失函数/优化方法 * 有些err函数是不可微分的,所以用softmax(激活函数,引入非线性层)->交叉熵(-log)作为损失函数 * 转换为优化问题,使用梯度下降/随机梯度下降 设mmm为样本数,nnn为特征数,kkk为分类数 h(x)h(x)h(x)为假设函数,hy(x)h_y(x)hy​(x)为在la
2025-06-19
笔记
#笔记 #CMU #深度学习

CS336-Spring2025课程笔记

课程笔记 overview * prefill: compute-bound / decode: memory bound * scaling laws: * tokenizer: https://tiktokenizer.vercel.app/ * byte pair encoding(BPE) resource counting * float32 / float16 /
2025-06-19
笔记
#笔记 #LLM

VLLM测试

1. 数据集 imdb影评情感分析数据集:http://ai.stanford.edu/~amaas/data/sentiment/ csv文件,格式类似如下: reviewsentimenttext…postivetext…negtive2. 测试 使用模型:NousResearch/Hermes-3-Llama-3.1-8B 使用显卡:单张H800 模型最大上下文限制为(prompt
2025-06-19
实验
#VLLM

VLLM与大模型推理框架

VLLM VLLM v1 代码整体流程,代码版本v0.8.5 调度部分,先调度running队列,再调度waiting队列。 https://zhuanlan.zhihu.com/p/1908153627639551302 关于抢占,抢占只是释放block不再进行运算,实际等到根据LRU策略去替换block时才会真正抢占。 KV Cache 当前Q乘缓存的K,再乘缓存的V,得到
2025-05-21
笔记
#VLLM

Self-Tuning Query Scheduling论文浅读

论文为:Self-Tuning Query Scheduling for Analytical Workloads sigmod 2021 https://15721.courses.cs.cmu.edu/spring2024/papers/08-scheduling/wagner-sigmod21.pdf 1 Introduction 本文提出一种自适应的调度优化策略,在高负载下的查询分析
2024-12-25
论文阅读

Rusty

start from zero with rust! Road Map Begin: * https://course.rs/ * https://practice.course.rs/
2024-11-19
笔记
#笔记 #Rust

CMU15721-Spring2024课程笔记

some papers that worth to read: // todo Overview * data cubes -> data warehouses -> shared-disk -> lakehouse * ETL tool * push query to data / pull data to query * shared-nothing / shared-disk
2024-11-19
笔记
#笔记 #CMU #数据库

Amazon MemoryDB论文浅读

论文为:Amazon MemoryDB: A Fast and Durable Memory-First Cloud Database. SIGMOD-Companion ’24, June 9–15, 2024, Santiago, AA, Chile 1 Introduction 对于许多实时应用程序,如金融、广告和物联网(IoT)应用程序,快速响应时间至关重要,现代键值存储可以为每台机器
2024-09-17
论文阅读

VBase论文浅读

论文为:VBASE: Unifying Online Vector Similarity Search and Relational Queries via Relaxed Monotonicity 1 介绍 查询逐渐复杂,促使了向量搜索与关系数据库的结合。另外由于高维度向量难以保持单调性,现代向量索引仅支持TopK近邻查询。 在混合查询中,一种做法是选择k个记录,然后建立临时索引,再在索引之
2024-07-20
论文阅读
#数据库 #向量化
1234

搜索

Hexo Fluid
载入运行时间...
总访问量 次 总访客数 人