Microsoft Azure 认知语音服务平台是技术和服务的综合集合,旨在加速将语音整合到应用程序中,从而扩大市场差异化。可用的服务包括语音转文本、文本转语音、自定义神经语音 (CNV) 对话听录服务、说话人识别、语音翻译、语音 SDK 和语音设备开发工具包 (DDK)。

人工智能教育是一项新兴技术,有可能彻底改变我们教授和学习语言的方式。语言学习最重要的方面之一是准确发音的能力,这就是 Azure 认知语音服务的新发音评估功能的用武之地。另一个关键机会是开发合成双语语音,用于使用自定义神经语音进行语言学习体验,以及我们的语音转文本功能。

发音评估

新功能旨在向用户提供有关学习新语言时语音的准确性、流畅性和韵律的即时反馈。该服务利用 Azure 神经文本转语音和转换器模型,以及顺序回归和层次结构来提高单词级别评估的准确性。该服务目前提供 10 多种语言版本,包括美式英语、英式英语、澳大利亚英语、法语、西班牙语和中文,其他语言以预览版提供。

发音评估功能为教育工作者、服务提供商和学生提供了多种好处:

  • 对于教育工作者来说,它提供即时反馈,消除了耗时的口头语言评估的需要,并提供一致和全面的评估。
  • 对于服务提供商,它提供高实时功能、全球语音认知服务,并支持不断增长的全球业务。
  • 对于学生和学习者来说,它提供了一种方便的练习和接收反馈的方式,权威评分与母语发音进行比较,并有助于遵循长句子或完整文档的确切文本顺序。

发音评估是语言学习和教学的有力工具。通过利用 TTS、转换器和序数回归等人工智能技术,它提供有关语音发音的即时准确反馈。凭借其广泛的支持语言和与低资源区域设置合作的能力,它为各种背景的语言学习者提供了提高语言技能的机会。通过发音评估,教育工作者可以提供更具吸引力和可访问性的学习体验,服务提供商可以提高教育客户的工作效率,学生可以随时随地更方便地练习。

在2023年2月9日的 Microsoft Reimagine Education 活动中,我们宣布了几项新功能,以支持学生取得成功。语音发音评估用于沉浸式阅读器上的阅读教练和 Microsoft 团队中的演讲者进度。它可以在课堂内外使用,以节省教师的时间,并提高学生阅读流利度的学习成果,所有学习者都可以使用。

语音转文本

教师和语言学习者在学习对话中自然会混合母语和学习语言。Azure 语音转文本支持多语言学习方案的实时语言识别,并通过更好的理解和可读上下文帮助人与人交互。

最新的多语言建模技术和迁移学习技术被用于开发基于大量数据的新的语音转文本(STT)语言。这些模型经过了不同语言的声学和语言知识训练,可以处理各种语言领域的听写和对话。输出包括反向文本规范化 (ITN)、大写(如果适用)和自动标点符号,以增强可读性。开发人员可以使用实时流式应用程序编程接口 (API) 或批量转录轻松地将这些语言集成到他们的项目中。在所有语言中使用统一模型的好处将立即显现出来。

预生成和自定义神经语音 (CNV)

神经语音(文本转语音)可以本地读出学习材料,并随时随地实现自助学习。Microsoft Azure AI 提供超过 449 种预构建的神经语音,跨 147 种语言和差异,使用户能够获得 AI 教师、内容朗读功能等。

自定义神经语音 (CNV) 是 Azure AI 提供的一项功能,使用户能够为其应用程序创建独特的自定义合成语音。此功能使用人类语音样本作为训练数据,为品牌或角色生成听起来非常自然的声音。教育公司正在使用这项技术来个性化语言学习,通过创建具有与目标受众文化和背景相匹配的独特声音的独特角色。例如,Duolingo 使用自定义神经语音帮助在语言学习平台中将九个新角色变为现实,Pearson 使用它来改进发音评估。CNV 基于神经文本转语音技术,允许用户创建具有丰富说话风格、跨语言和适应性强的合成语音。逼真自然的声音非常适合代表品牌和拟人化机器,以便与用户进行对话互动。

客户灵感

随着技术的不断进步,越来越明显的是,教育的未来在于人工智能的整合。Azure AI 处于这场革命的最前沿,为教育公司提供了强大的工具来改善学习体验并推动学生参与和成就。我们受到教育领域五位客户的启发:

  1. Pearson:该公司希望使用 AI 为学生提供更好的服务,并为教师提供高度准确的评估,使用 Azure 为语言学习者开发基于 AI 的服务。他们采用了新的 Microsoft 算法和领先的发音评估功能,这是语音转文本功能的一部分。
  2. 北京红丹丹视障服务中心:该组织正在与微软和志愿者团队合作生成AI音频内容,这些内容将用于改善盲人或低视力人士的资源。他们使用 Azure 自定义神经语音(一种文本转语音工具,允许用户创建自定义语音字体)来生成音频内容。
  3. Duolingo:这家语言学习公司正在使用自定义神经语音,通过在平台内引入一系列角色来个性化语言学习。Duolingo 经历了数百次角色迭代,旨在让他们反映世界各地文化的用户群,同时在视觉上与应用程序的长期主角保持一致。他们使用自定义神经语音在语言学习平台中使角色栩栩如生。他们还使用 Azure 帮助在语言学习平台中将九个新角色变为现实。
  4. HelloTalk:创新的移动应用程序通过将用户与来自世界各地的母语人士联系起来,提供了一种愉快而轻松的方式来学习一门新语言。凭借其直观的语言工具,包括发音评估功能和社区功能,它使用户能够练习并沉浸在目标语言的文化中,提高发音并在此过程中结交新朋友。
  5. 贝立兹:这家全球领导力和语言培训公司提供使用 Azure 语音识别和发音评估的语言学习产品。通过这些创新工具,学习者可以立即收到有关新语言语音的准确性和流畅性的详细反馈。这使得贝立兹的学习者可以灵活地随时随地练习和完善他们的发音,然后用英语、德语、西班牙语等与母语人士交谈。

人工智能对教育的未来影响

人工智能,特别是语音服务,与教育部门的整合变得越来越重要,因为它可以大大增强学习体验并提高教学效率。Azure 发音评估和自定义神经语音等语音服务在教育平台中提供个性化、自动化和分析,从而提高学生的参与度和成就。这些服务还使教育工作者能够提供有关语音准确性、流畅性和完整性的即时反馈,从而帮助语言学习者提高发音和流利度。凭借实时评估发音的能力,人工智能驱动的语音服务可以帮助所有背景的学习者都能使用语言评估。此外,这些服务还可以根据个别学生的需求提供个性化的反馈和建议,从而帮助每个学生的学习体验个性化。将人工智能整合到教育部门可以帮助教育工作者赋予学生权力,并帮助学生充分发挥潜力。

Azure 认知服务入门

使用无代码方法在语音工作室中查看这些功能。语音工作室是一组基于 UI 的工具,用于将 AI 服务构建到应用程序中。