CUDA笔记
本文最后更新于 2026年3月18日 晚上
Cuda Mode
-
使用load_inline函数可以bind cpp to python
-
ncu profiler
-
torch -> triton:
TORCH_LOGS = "OUTPUT_CODE" python square_compile.pywith torch.compile -
修饰符:
- thread divergence / roofline model
CUDA笔记
https://gentlecold.top/20251009/cuda-note/