基于 LangChain 实现问答
您是否有兴趣与自己的文档聊天,无论是文本文件、PDF 还是网站?LangChain 使您可以轻松地使用文档进行问答。在这篇博文中,我们将探讨四种不同的问答方法,以及您可以为案例考虑的各种选项。
在我们实现问答之前,您可能想知道:什么是 LangChain?简单来说,LangChain 是一种快速与语言模型交互和构建应用程序的开源框架,方便集成许多主流的 LLM 和组件扩展。
……一个技术老兵工作的点滴记录,专注、沟通、乐在分享!
您是否有兴趣与自己的文档聊天,无论是文本文件、PDF 还是网站?LangChain 使您可以轻松地使用文档进行问答。在这篇博文中,我们将探讨四种不同的问答方法,以及您可以为案例考虑的各种选项。
在我们实现问答之前,您可能想知道:什么是 LangChain?简单来说,LangChain 是一种快速与语言模型交互和构建应用程序的开源框架,方便集成许多主流的 LLM 和组件扩展。
……ML.NET 是一个面向 .NET 开发人员的开源跨平台机器学习框架,可将自定义机器学习模型集成到 .NET 应用中。
新版本的 Model Builder 现已发布!
以下是此版本的亮点。您可以在 Model Builder 发行说明中找到所有更改的列表。
要开始使用这些新功能,请安装或升级到最新版本的 Model Builder 16.14.4 或更高版本。
句子相似性是一项比较两个文本彼此相似程度的任务。
句子相似性的常见用例是信息检索。例如,给出一个搜索查询,返回最相似(相关)的文档。
……基因学工作流程在生物信息学中至关重要,因为它们可以帮助研究人员分析和解释大量的基因组数据。但是,使用专用软件和复杂的依赖项创建一致且可重复的环境可能具有挑战性,因此与 CI/CD 工具的集成也很困难。
Azure 机器学习 (Azure ML) 是一个基于云的平台,提供一组全面的工具和服务,用于开发、部署和管理机器学习模型。Azure ML 原生提供出色的可重复性和可审核性功能,而没有多少工作流解决方案提供这些功能。它为运行工作流提供了一个高度集成和标准化的环境,确保每个步骤都以一致且可重复的方式执行。此功能对于需要使用具有特定依赖项的某些版本的多个工具和软件包的基因学工作流特别有用。
……Microsoft Azure 认知语音服务平台是技术和服务的综合集合,旨在加速将语音整合到应用程序中,从而扩大市场差异化。可用的服务包括语音转文本、文本转语音、自定义神经语音 (CNV) 对话听录服务、说话人识别、语音翻译、语音 SDK 和语音设备开发工具包 (DDK)。
人工智能教育是一项新兴技术,有可能彻底改变我们教授和学习语言的方式。语言学习最重要的方面之一是准确发音的能力,这就是 Azure 认知语音服务的新发音评估功能的用武之地。另一个关键机会是开发合成双语语音,用于使用自定义神经语音进行语言学习体验,以及我们的语音转文本功能。
……定制的 OCR 解决方案提供了在文档或图像中定义唯一类别的功能。通过与各种客户合作开发定制 OCR 解决方案,我们经常听到这样的问题:“此解决方案在我的数据上表现如何?我们开发了一种方法,允许使用表单识别器工作室根据自定义数据对 Microsoft 的表单识别器进行基准测试,并在一个过程中使用基本事实批注训练自定义模型。
在训练自定义表单识别器模型之前,必须具有标记或批注的数据集,也称为基本事实。为了提供注释过程的示例,我们创建了一个扫描的手写邮政地址的示例图像。真实名称为“John Doe”,地址为“000 Fifth Ave, NY 10065, USA”,如下图所示:
……ML.NET 是一个面向 .NET 开发人员的开源跨平台机器学习框架,可将自定义机器学习模型集成到 .NET 应用中。
ML.NET 3.0 的第一个预览版带来了多项硬件加速改进,使你可以在训练期间充分利用计算资源。安装最新的 ML.NET 3.0 和Intel oneDAL 预览包,试用由 Intel oneDAL 提供支持的最新改进。
Intel oneAPI Data Analytics Library 是一个通过为数据分析和机器学习过程的所有阶段提供高度优化的算法构建模块,帮助加快数据分析速度的库。oneDAL 利用 64 位架构中的 SIMD 扩展,这些扩展在 Intel 和 AMD CPU 中都有。
……Azure 视频索引器很高兴地宣布推出一项名为“特色服装”的新功能,该功能现已推出公共预览版。
借助此功能,发布商和广告主可以利用深入的上下文理解,在观看者最容易接受与广告互动的最相关时间投放最相关的广告。
这种洞察力使用先进的人工智能来深入了解关键时刻、主要角色、重要场景和所显示的情感,所有这些都是为了识别视频中出现的关键服装项目。对于这些服装商品,我们会提供它们出现的确切帧以及更多信息(例如边界框和时间码),这些信息可以帮助广告主和发布商匹配类似服装商品的相关广告,并将其放置在该商品在视频中展示的确切时刻。
……ML.NET v2.0 比较低调地在11月发布了,所有 ML.NET 2.0 和 Model Builder 的更新信息在此,可以从中了解到更多细节或实现,本文把值得关注的内容摘要出来。
新版本的 ML.NET 2.0 和 Model Builder 2022 目前都已发布。
几个月前发布的文本分类 API 的预览版,使开发者能够训练对原始文本数据进行分类的自定义模型。它通过将 NAS-BERT 的 TorchSharp 实现集成到 ML.NET 中来实现。文本分类 API 基于此模型的预训练版本,使用数据来微调模型。Model Builder 中的文本分类场景正式由 ML.NET 文本分类 API 提供支持。
……PDF文档广泛用于业务流程。数字创建的 PDF 使用起来非常方便。可以搜索、突出显示和批注文本。不幸的是,许多PDF是通过扫描图像或将图像转换为PDF来创建的。这些 PDF 中没有数字文本,因此无法搜索它们。在这篇博文中,我们演示了如何使用简单易用的代码和 Azure 表单识别器将此类 PDF 转换为可搜索的 PDF。
Azure 表单识别器是一种基于云的 Azure 应用 AI 服务,它使用深度机器学习模型从文档中提取文本、键值对、表和表单字段。在这篇博文中,我们将使用表单识别器提取的文本将其添加到 PDF 中,使其可搜索。
……我们很高兴地宣布正式发布自动化机器学习 (AutoML) 训练代码生成。借助此功能,用户可以查看其 AutoML 模型背后的训练脚本,以确保他们对模型的训练方式完全透明。用户还可以使用该脚本根据其用例的需要自定义/调整训练,从而使他们能够快速将 AutoML 模型转移到生产环境中。
AutoML对于数据科学家来说是一个非常强大的工具。他们需要做的就是提供数据并配置基本作业参数,AutoML 会迭代适用的 ML 算法,以根据提供的数据和所选的准确性指标训练理想的模型。然而,我们经常听到 AutoML 是一个黑匣子——禁止数据科学家生产 AutoML 模型。
……