使用 Azure 表单识别器生成可搜索的 PDF

PDF文档广泛用于业务流程。数字创建的 PDF 使用起来非常方便。可以搜索、突出显示和批注文本。不幸的是,许多PDF是通过扫描图像或将图像转换为PDF来创建的。这些 PDF 中没有数字文本,因此无法搜索它们。在这篇博文中,我们演示了如何使用简单易用的代码和 Azure 表单识别器将此类 PDF 转换为可搜索的 PDF。

Azure 表单识别器概述

Azure 表单识别器是一种基于云的 Azure 应用 AI 服务,它使用深度机器学习模型从文档中提取文本、键值对、表和表单字段。在这篇博文中,我们将使用表单识别器提取的文本将其添加到 PDF 中,使其可搜索。

……

阅读全文

利用 AutomatedML 模型背后的训练代码

概述

我们很高兴地宣布正式发布自动化机器学习 (AutoML) 训练代码生成。借助此功能,用户可以查看其 AutoML 模型背后的训练脚本,以确保他们对模型的训练方式完全透明。用户还可以使用该脚本根据其用例的需要自定义/调整训练,从而使他们能够快速将 AutoML 模型转移到生产环境中。

为什么这很重要?

AutoML对于数据科学家来说是一个非常强大的工具。他们需要做的就是提供数据并配置基本作业参数,AutoML 会迭代适用的 ML 算法,以根据提供的数据和所选的准确性指标训练理想的模型。然而,我们经常听到 AutoML 是一个黑匣子——禁止数据科学家生产 AutoML 模型。

……

阅读全文

在 Azure Machine Learning 中使用 Azure Container for PyTorch 启用深度学习

概述

由于AzureML是许多PyTorch开发人员的首选平台,我们开发了新的Azure Container for PyTorch(ACPT),这是一个精心策划的环境,包括最好的Microsoft技术,用于在Azure上使用PyTorch进行训练。我们很高兴地宣布 Azure 机器学习 (AzureML) 中的 ACPT 公共预览版。这个新的特选环境是一个轻量级的独立环境,其中包含在 AzureML 上有效运行大型模型优化训练所需的组件。默认情况下,AzureML 特选环境在用户的工作区中可用,并由使用最新版本的 AzureML SDK 的缓存 Docker 映像提供支持。它有助于降低准备成本并缩短部署时间。

……

阅读全文

Azure Cognitive Search 支持交换索引

搜索索引是不可变的,这意味着如果需要更新索引,通常需要删除并重新生成索引或创建新索引,然后迁移应用程序。像这样交换搜索索引会增加管理搜索索引的复杂性,如果最终需要在多个位置更新应用程序设置或需要重新部署代码,则可能会很困难。

为了帮助更轻松地交换索引,Azure 认知搜索现在支持预览版提供的索引别名。别名是辅助名称,可用于引用索引以进行查询、索引和其他文档操作。您可以通过 REST APIVisual Studio Code 扩展SDK 创建别名。

POST https://[service name].search.windows.net/aliases?api-version=2021-04-30-Preview

1
2
3
4
{
   "name": "my-alias",
   "indexes": ["hotel-samples-index"]
}

如果您发现自己相当频繁地更新搜索索引,则可能会从使用别名中受益。下图显示了在应用程序中使用索引别名的典型工作流。 image

……

阅读全文

Azure 机器学习与 H2O.ai 的新集成

在当今复杂的云环境中,公司使用来自多个来源的技术是很常见的。云计算平台通常是企业IT环境的基础,由独立软件供应商和满足业务和工业垂直需求的产品补充。通过 H2O.ai 和 Azure 机器学习之间的集成,我们使客户能够使用类似 SaaS 的工具实现模型创建民主化,并选择符合其企业要求的部署技术。

使用 H2O.ai 的 AzureML 集成,H2O.ai 中构建的模型现在显示为 AzureML 工作区中的已部署模型。这意味着任何用户或产品现在都可以通过简单的 API 调用利用 AzureML 中托管的 H2O.ai 模型的推理终结点。这使得组织模型的采用更加容易,允许用户访问整个企业 IT 环境中的模型,而无需更改现有的部署策略。

……

阅读全文

有关 ML.NET 深度学习的计划

ML.NET 最需要的功能之一是能够从零开始创建神经网络模型,以便在 ML.NET 中进行深度学习。ML.NET 团队已经采纳了用户调研的反馈,并制定了开始实施此功能的计划。

ML.NET 深度学习的现状

目前,ML.NET 没有一种方法可以创建神经网络,从零开始建立深度学习模型。然而,对于采用现有的深度学习模型并将其用于预测,框架给予极大的支持。如果您有 TensorFlow 或 ONNX 模型,则这些模型可用于 ML.NET 进行预测。

……

阅读全文

ML.NET 代码速查手册,高清图手慢无!

ML.NET 是面向.NET开发人员的跨平台机器学习框架,它具备在联机或本地环境中将机器学习模型集成到 .NET 应用程序中的能力。

ML.NET

2002 年微软启动有一个研究项目命名为 TMSN,其意在“Test mining search and navigation”,后来它被改名为 TLC(The learning code)。ML.NET 正是派生自 TLC 库,最初被用于微软的内部产品。

……

阅读全文

ML.NET v1.6 中有趣的内容

ML.NET v1.6 发布有一段时间了,所有详细信息在此,可以了解到更多细节或实现,本文把比较新鲜有趣的内容摘要出来。

此版本中增加了很多东西,但它们确实注意到,添加的所有内容都没有中断更改。

支持 ARM

这次更新最令人兴奋的部分是对ARM架构的新支持。这将允许在 ML.NET 进行大多数场景的训练和推论项目。ARM架构几乎无处不在。如六月更新博客文章中所述,此 ARM 架构包含在移动和嵌入式设备上。这可以为手机和 IoT 设备的 ML.NET 开辟全新的世界。

DataFrame 更新

DataFrame API 可能是目前处于早期阶段的特性之一。主要还是由于 .NET 与 Python 中常见库 pandas 在数据分析上面不存在竞争,在将数据发送到 ML.NET 进行建模之前,你可能需要处理一些预处理。现在 DataFrame API 已经进入 ML.NET 主库 ,该代码以前作为实验包在 CoreFx Lab存储库中,但现在它不再是实验性的,现在已是 ML.NET 的一部分意味着项目计划持续更新。

……

阅读全文