在 Azure Machine Learning 中使用 Azure Container for PyTorch 启用深度学习
概述
由于AzureML是许多PyTorch开发人员的首选平台,我们开发了新的Azure Container for PyTorch(ACPT),这是一个精心策划的环境,包括最好的Microsoft技术,用于在Azure上使用PyTorch进行训练。我们很高兴地宣布 Azure 机器学习 (AzureML) 中的 ACPT 公共预览版。这个新的特选环境是一个轻量级的独立环境,其中包含在 AzureML 上有效运行大型模型优化训练所需的组件。默认情况下,AzureML 特选环境在用户的工作区中可用,并由使用最新版本的 AzureML SDK 的缓存 Docker 映像提供支持。它有助于降低准备成本并缩短部署时间。
ACPT策划环境扩展了我们现有的 PyTorch 策划环境 ,包括最新的PyTorch版本,针对数十种生产模型进行了测试和验证,以确保高质量,同时还提供各种用于训练和优化的Microsoft技术,例如 ONNX Runtime 和 DeepSpeed。 所有组件都已安装并经过验证,以降低设置成本并加快客户计量机的训练时间。
ACPT 精选的环境属性和说明。
优点
使用 ACPT 特选环境的优点包括:
- 优化的训练框架,用于在大型工作负载上设置、开发和加速 PyTorch 模型。
- 最新的堆栈,包含Ubuntu,Python,PyTorch,CUDA\RocM等的最新兼容版本。
- 易用性:针对数十个 Microsoft 工作负载安装和验证所有组件,以降低设置成本并加快价值实现速度
- 最新的训练优化技术:Onnx / Onnx Runtime / Onnx Runtime Training,ORT MoE,DeepSpeed, MSCCL等。
- 与 Azure ML 集成:在 ML Studio 上或使用 AML SDK 跟踪 PyTorch 实验
- 按原样与预安装的软件包一起使用,或在精选环境之上构建
- 该映像也可用作 DSVM
- Azure 客户支持
指标和数据
ACPT 环境使我们的客户能够有效地训练 PyTorch 模型。容器中组合的 ONNX Runtime 和 DeepSpeed 等优化库可以将生产速度从常规 PyTorch 工作负载提高到 54% 到 163%,如在各种 HuggingFace 模型上看到的那样。
拥抱面部模型的指标
ACPT 通过在更短的时间内执行相同的训练作业来降低计算成本。训练运行也很容易跟踪,因为特选环境与AzureML工具(如Azure机器学习工作室和AzureML SDK)集成在一起。
下面是一个 NLP 产品审查微调训练运行的示例,大约需要两个小时才能完成。
使用ACPT策划的环境,我们观察到使用DeepSpeed的Finetune HuggingFace分类器将整体训练时间减少到45分钟多一点。 在此模型上,训练时间减少了 62%。
- 原文作者:BeanHsiang
- 原文链接:https://beanhsiang.github.io/post/2022-10-13-enabling-deep-learning-with-azure-container-for-pytorch-in-azure/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议. 进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。