CUDA笔记

本文最后更新于 2026年3月18日 晚上

Cuda Mode

  • 使用load_inline函数可以bind cpp to python

  • ncu profiler

  • torch -> triton: TORCH_LOGS = "OUTPUT_CODE" python square_compile.py with torch.compile

  • 修饰符:

  • thread divergence / roofline model

CUDA笔记
https://gentlecold.top/20251009/cuda-note/
作者
GentleCold
发布于
2025年10月9日
许可协议