分布式训练:把模型训练拆分到多张 GPU、多个节点或多种并行维度上以扩展数据量和模型规模。