AllReduce

Reduce-Scatter

image.png

image.png

All-Gather

image.png

ZeRO

混合精度训练

image.png

ZeRO-1

image.png

ZeRO-2

image.png

ZeRO-3

image.png

Megatron

列切分

image.png

行切分

image.png

MLP 切分(先列再行,因为非线性的激活函数需要通信)

image.png

Attention 切分

image.png