概述

由于AzureML是许多PyTorch开发人员的首选平台,我们开发了新的Azure Container for PyTorch(ACPT),这是一个精心策划的环境,包括最好的Microsoft技术,用于在Azure上使用PyTorch进行训练。我们很高兴地宣布 Azure 机器学习 (AzureML) 中的 ACPT 公共预览版。这个新的特选环境是一个轻量级的独立环境,其中包含在 AzureML 上有效运行大型模型优化训练所需的组件。默认情况下,AzureML 特选环境在用户的工作区中可用,并由使用最新版本的 AzureML SDK 的缓存 Docker 映像提供支持。它有助于降低准备成本并缩短部署时间。

ACPT策划环境扩展了我们现有的 PyTorch 策划环境 ,包括最新的PyTorch版本,针对数十种生产模型进行了测试和验证,以确保高质量,同时还提供各种用于训练和优化的Microsoft技术,例如 ONNX Runtime 和 DeepSpeed。 所有组件都已安装并经过验证,以降低设置成本并加快客户计量机的训练时间。

image

ACPT 精选的环境属性和说明。

优点

使用 ACPT 特选环境的优点包括:

  • 优化的训练框架,用于在大型工作负载上设置、开发和加速 PyTorch 模型。
  • 最新的堆栈,包含Ubuntu,Python,PyTorch,CUDA\RocM等的最新兼容版本。
  • 易用性:针对数十个 Microsoft 工作负载安装和验证所有组件,以降低设置成本并加快价值实现速度
  • 最新的训练优化技术:Onnx / Onnx Runtime / Onnx Runtime Training,ORT MoE,DeepSpeed, MSCCL等。
  • 与 Azure ML 集成:在 ML Studio 上或使用 AML SDK 跟踪 PyTorch 实验
  • 按原样与预安装的软件包一起使用,或在精选环境之上构建
  • 该映像也可用作 DSVM
  • Azure 客户支持

指标和数据

ACPT 环境使我们的客户能够有效地训练 PyTorch 模型。容器中组合的 ONNX Runtime 和 DeepSpeed 等优化库可以将生产速度从常规 PyTorch 工作负载提高到 54% 到 163%,如在各种 HuggingFace 模型上看到的那样。

image2

拥抱面部模型的指标

ACPT 通过在更短的时间内执行相同的训练作业来降低计算成本。训练运行也很容易跟踪,因为特选环境与AzureML工具(如Azure机器学习工作室和AzureML SDK)集成在一起。

下面是一个 NLP 产品审查微调训练运行的示例,大约需要两个小时才能完成。

image3

使用ACPT策划的环境,我们观察到使用DeepSpeed的Finetune HuggingFace分类器将整体训练时间减少到45分钟多一点。 在此模型上,训练时间减少了 62%。

image4