Blackwell 上的 GEMM 数据 Pipeline

D = A × B — 点击一个动作,查看它在架构图中的数据路径

GMEM
A, B
TMA load
SMEM
tcgen05.mma
TMEM
accum
tcgen05.ld
Reg
cast
store
SMEM
TMA store
GMEM
D
Blackwell 架构
Streaming Multiprocessor (SM)
Tensor Core (tcgen05)
第五代 MMA
CUDA Core
FP/INT 单元
Shared Memory (SMEM)
228 KB per SM
Tensor Memory (TMEM)
128 lanes
Register File
TMA Engine
数据搬运引擎
SM ...
× N
Global Memory (GMEM)
点击 pipeline 中的一个动作,高亮它的数据路径。