实验配置须知
实验环境: GeForce RTX 3090 × 2
服务器 env:avsd
batch size: 32 64(单卡会爆显存):也就是说baseline上,一张3090最多把B设置成32
2023/10/9大约 2 分钟
实验环境: GeForce RTX 3090 × 2
服务器 env:avsd
batch size: 32 64(单卡会爆显存):也就是说baseline上,一张3090最多把B设置成32
本文主要介绍DistributedDataParallel以及DataParallel并行的区别和DDP的原理、方法。
常用切分方案有:数据并行、模型并行、通道并行(数据+模型并行)
数据并行:将batch分成n块,每个GPU拿到完整参数计算一块数据的梯度,该方法通常性能更好
模型并行:将模型分成n块,每个GPU拿到一块模型计算其前向和方向结果,该方法通常适用于单GPU放不下大模型的情况,这就会导致整个计算过程是串行的,加大了性能优化难度