在 PyTorch 中如何将一个很大的模型分布到多个 GPU 上训练？

在PyTorch 中，如果我们需要训练一个很大的模型，即使 batch size 很小，放在单个 GPU 上也会显存溢出，而我们又没有大显存的 GPU，这时应该怎么办呢？我们能否将一个大的模型分成几个小的部分，分别在不同的模型上训练呢？