Blackwell SM 架构
Streaming Multiprocessor (SM)
Tensor Core (tcgen05)
第五代 MMA
CUDA Core
FP/INT 单元
Shared Memory (SMEM)
228 KB per SM
Tensor Memory (TMEM)
TMEM — 128 lanes
Register File
TMA Engine
数据搬运引擎
SM ...
× N
Global Memory (GMEM)
点击一个硬件单元查看细节。实线箭头表示 load 路径,虚线箭头表示 store 路径。