Pytorch 高效使用GPU的操作

2020年06月27日作者：血_影原文

前言

深度学习涉及很多向量或多矩阵运算，如矩阵相乘、矩阵相加、矩阵-向量乘法等。深层模型的算法，如BP，Auto-Encoder，CNN等，都可以写成矩阵运算的形式，无须写成循环运算。然而，在单核CPU上执行时，矩阵运算会被展开成循环的形式，本质上还是串行执行。GPU（Graphic Process Units，图形处理器）的众核体系结构包含几千个流处理器，可将矩阵运算并行化执行，大幅缩短计算时间。随着NVIDIA、AMD等公司不断推进其GPU的大规模并行架构，面向通用计算的GPU已成为加速可并行应用程序的重要手段。得益于GPU众核（many-core）体系结构，程序在GPU系统上的运行速度相较于单核CPU往往提升几十倍乃至上千倍。

目前，GPU已经发展到了较为成熟的阶段。利用GPU来训练深度神经网络，可以充分发挥其数以千计计算核心的能力，在使用海量训练数据的场景下，所耗费的时间大幅缩短，占用的服务器也更少。如果对适当的深度神经网络进行合理优化，一块GPU卡相当于数十甚至上百台CPU服务器的计算能力，因此GPU已经成为业界在深度学习模型训练方面的首选解决方案。

如何使用GPU？现在很多深度学习工具都支持GPU运算，使用时只要简单配置即可。Pytorch支持GPU，可以通过to(device)函数来将数据从内存中转移到GPU显存，如果有多个GPU还可以定位到哪个或哪些GPU。Pytorch一般把GPU作用于张量(Tensor)或模型（包括torch.nn下面的一些网络模型以及自己创建的模型）等数据结构上。

单GPU加速

使用GPU之前，需要确保GPU是可以使用，可通过torch.cuda.is_available()的返回值来进行判断。返回True则具有能够使用的GPU。

通过torch.cuda.device_count()可以获得能够使用的GPU数量。

如何查看平台GPU的配置信息？在命令行输入命令nvidia-smi即可 (适合于Linux或Windows环境)。图5-13是GPU配置信息样例，从中可以看出共有2个GPU。

8. 通过web查看损失值的变化情况

图并发运行训练损失值变化情况

图形中出现较大振幅，是由于采用批次处理，而且数据没有做任何预处理，对数据进行规范化应该更平滑一些，大家可以尝试一下。

单机多GPU也可使用DistributedParallel，它多用于分布式训练，但也可以用在单机多GPU的训练，配置比使用nn.DataParallel稍微麻烦一点，但是训练速度和效果更好一点。具体配置为：

#初始化使用nccl后端
torch.distributed.init_process_group(backend="nccl")
#模型并行化
model=torch.nn.parallel.DistributedDataParallel(model)

单机运行时使用下面方法启动

python -m torch.distributed.launch main.py

使用GPU注意事项

使用GPU可以提升我们训练的速度，如果使用不当，可能影响使用效率，具体使用时要注意以下几点：

GPU的数量尽量为偶数，奇数的GPU有可能会出现异常中断的情况；

GPU很快，但数据量较小时，效果可能没有单GPU好，甚至还不如CPU；

如果内存不够大，使用多GPU训练的时候可通过设置pin_memory为False，当然使用精度稍微低一点的数据类型有时也效果。

以上这篇Pytorch 高效使用GPU的操作就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持来客网。