使用 Azure 表单识别器生成可搜索的 PDF
PDF文档广泛用于业务流程。数字创建的 PDF 使用起来非常方便。可以搜索、突出显示和批注文本。不幸的是,许多PDF是通过扫描图像或将图像转换为PDF来创建的。这些 PDF 中没有数字文本,因此无法搜索它们。在这篇博文中,我们演示了如何使用简单易用的代码和 Azure 表单识别器将此类 PDF 转换为可搜索的 PDF。
Azure 表单识别器概述
Azure 表单识别器是一种基于云的 Azure 应用 AI 服务,它使用深度机器学习模型从文档中提取文本、键值对、表和表单字段。在这篇博文中,我们将使用表单识别器提取的文本将其添加到 PDF 中,使其可搜索。
……