训练自定义表单识别器并对其进行基准测试
步骤概述
定制的 OCR 解决方案提供了在文档或图像中定义唯一类别的功能。通过与各种客户合作开发定制 OCR 解决方案,我们经常听到这样的问题:“此解决方案在我的数据上表现如何?我们开发了一种方法,允许使用表单识别器工作室根据自定义数据对 Microsoft 的表单识别器进行基准测试,并在一个过程中使用基本事实批注训练自定义模型。
使用表单识别器工作室批注基本事实
在训练自定义表单识别器模型之前,必须具有标记或批注的数据集,也称为基本事实。为了提供注释过程的示例,我们创建了一个扫描的手写邮政地址的示例图像。真实名称为“John Doe”,地址为“000 Fifth Ave, NY 10065, USA”,如下图所示:
……