[CuTeDSL] Distributed example, using TMA load to access remote memory rank-by-rank, reducing in cta, broadcast result to all ranks by multimem TMA store by aragorn-guan · Pull Request #2970 · NVIDIA/cutlass

aragorn-guan · 2026-01-21T11:14:41Z

Add TMA-based distributed all-reduce example (all_reduce_tma.py)

A tutorial example demonstrating TMA usage for distributed all-reduce operations across multiple GPUs.

Key features:

Note: This example prioritizes clarity over performance optimization, serving as a learning resource for TMA-based distributed operations.

shubaoyu2 · 2026-01-21T11:20:08Z

LGTM，and also cc @IonThruster @brandon-yujie-sun @fengxie @hwu36 for review and approve

init

f938747

fengxie approved these changes Feb 11, 2026

View reviewed changes

Junkai-Wu merged commit 8dbce01 into NVIDIA:main Feb 11, 2026

Provide feedback