2-CTA Cluster:通过跨 CTA 的 SMEM 读取实现 Cooperative MMA
点击一个组件 — 两个 CTA 通过 cluster(DSMEM)共享 stored-B row slice
CLUSTER — 跨 SM 的 2 个 CTA · DSMEM
CTA 0 · SM-0
Asmem
A rows 0–127
Bsmem
B stored rows 0–127
D[0:128, 0:256]
跨 CTA
读取 ↔
CTA 1 · SM-1
Asmem
A rows 128–255
Bsmem
B stored rows 128–255
D[128:256, 0:256]
Cluster output:256 × 256 — 是单个 CTA 独立计算 128 × 128 的两倍