分享到: 分享到QQ  分享到Twitter

作者: BigLoser    访问次数: 778 创建时间: 2020-08-27 12:14:52 更新时间: 2024-04-19 16:56:47

Facebook 的深度学习开源框架 PyTorch 发布了 1.6 版本,带来了新的 API 和性能改进。与此同时,微软宣布将接管该框架 Windows 版本的开发和维护工作。

 

PyTorch 团队在最近的一篇博文中强调了新版本的主要特性。本地自动混合精度 (AMP) 训练在 Tensor Core GPU 上可节省高达 50% 的内存,新的 Beta 版内存分析器为调试内存问题提供帮助。PyTorch 支持的两个分布式训练范式(数据并行和模型并行)现在可以一起使用了,并且 RPC 框架包含了一个支持 TensorPipe 的新后端。在另一篇博文中,微软的一个团队宣布了其在 PyTorch 社区的角色,包括对 PyTorch Windows 版本的所有权、改进测试覆盖率和改进文档。根据团队的说法:

 

微软很乐意提供 Windows 的专业知识,并把 PyTorch 带到 Windows 上,使其达到最好的状态。

 

2017 年 1 月,社区希望发布 Windows 版的 PyTorch,并被包含在当年 12 月的 0.3.0 版本中。与其他很多开源项目一样,大部分 Windows 版的开发工作都是由社区贡献的,尤其是 Jiachen Pu 。然而,有限的可用资源意味着测试覆盖率低下、教程过时,而且一些特性 (如分布式训练) 根本不可用。微软的努力已经让核心 PyTorch 库和领域库 TorchText、TorchAudio 和 TorchVision 的 Linux 版本的测试覆盖率达到了“标准”。下一个工作领域将包括支持通过 pip 安装和分布式训练。

 

PyTorch 支持两种分布式训练:数据并行 (data-parallel) 和模型并行 (model-parallel)。前者在多台机器上训练模型的完整副本,每台机器上都有训练数据的分区,而后者的模型的不同部分在不同的机器上训练。模型并行训练对于无法加载到单台机器内存的超大模型非常有用。数据并行训练通过将工作负载分布在多台机器上,加快了整个训练过程,将它与模型并行训练相结合可以进一步加快训练。在版本 1.4 中,PyTorch 引入了一个支持模型并行训练的分布式远程过程调用 (RPC) 系统,但是在最新的 1.6 版本之前,这两种类型的分布式训练还不能同时使用。新版本还更新了 RPC 系统,包括对 TensorPipe 的支持,这是一种“感知 TensorPipe 的点对点通信原语”,可以改进分布式训练集群中机器之间的数据传输。

 

混合精度训练是在训练过程中使用不同的比特数来表示不同的值。例如,一些层或操作可能需要完整的 32 位浮点数,而其他的可能只需要 16 位。PyTorch 1.6 支持自动混合精度 (AMP) 训练,自动为每个值选择合适的精度。当在 Tensor Core GPU 上使用时,可以节省高达 50% 的内存。这个版本还包括了 Autograd Profiler 的 Beta 版本,它可以报告模型中 CPU 和 GPU 的内存使用情况。

 

在 Reddit 的一个讨论中,一位用户写道:

 

新的分析工具似乎是我很久以来一直想要的东西——PyTorch 最烦人的一个地方就是神秘的内存泄漏。

 

PyTorch 的源代码和1.6 版本的发布说明可以在GitHub 上找到。

 

原文链接PyTorch 1.6 Released, Microsoft Takes over Windows Version

季度最有价值文章

月度最有价值文章

投票统计

是否原创: 0 %

0 % Complete (success)

是否有价值: 0 %

0% Complete

是否有素质: 0 %

0% Complete (warning)

是否合法: 0 %

0% Complete

   群组工具

   外部链接