利用 WebSocket 实现 GPT-4o-transcribe 和 GPT-4o-mini-transcribe 的实时语音转录

2025年5月3日

| Azure AI

Azure OpenAI 最近增强了其语音识别产品，推出了两款令人印象深刻的模型：GPT-4o-transcribe 和 GPT-4o-mini-transcribe。它们的一个关键特性是利用 WebSocket 连接进行实时音频流转录。这为开发者们提供了构建语音转文本应用的先进工具。本文将深入探讨这些模型的工作原理，并提供一个用 Python 实现的实用示例。

……

阅读全文

使用 GPT-4o 实时 API 构建一个语音机器人

2024年10月15日

| Azure AI

语音技术正在改变我们与机器互动的方式，使与AI的对话感觉比以往任何时候都更加自然。随着 GPT-4o 实时API的公开测试版发布，开发人员现在可以使用这些工具在应用程序中创建低延迟、多模态的语音体验，从而为创新开辟了无限的可能性。

过去构建语音机器人需要将多个模型拼接在一起，用于语音识别、推理和文本转语音等操作。而现在借助实时API，开发者只需通过一个API调用即可完成整个过程，从而实现流畅、自然的语音对话。这对于客户支持、教育和实时语言翻译等行业来说是一个重大变革，因为在这些行业中，快速、无缝的交互至关重要。

……

阅读全文

检索增强微调：使用 GPT-4o 微调 GPT-4o mini 模型以适用于特定领域应用

2024年9月8日

| Azure AI

对企业来说，生成式AI最具影响力的应用之一是创建自然语言界面，这些界面已根据特定领域和使用场景的数据进行了定制，以提供更准确、更准确的响应。这意味着回答与银行、法律和医疗等特定领域相关的问题。

我们经常谈到实现这一目标的两种方法：

检索增强生成（RAG）：将这些文档存储在向量数据库中，在查询时根据它们与问题的语义相似度来检索文档，然后将它们作为LLM的上下文。
监督微调（SFT）：在一组代表特定领域知识的提示和响应上对现有的基线模型进行训练。

虽然大多数尝试使用RAG的组织都试图通过其内部知识库来扩展LLM的知识，但许多组织在没有进行显著优化的情况下未能达到预期效果。同样，精心挑选一个足够大且高质量的数据集用于微调也是一项具有挑战性的任务。这两种方法都有局限性：微调将模型限制在其已训练的数据上，使其容易受到近似和幻觉的影响，而RAG虽然可以使模型落地，但它仅根据查询与文档的语义接近程度来检索文档——这可能与查询无关，并导致给出的解释不充分。

……

阅读全文

GPT-4o 中的文章

利用 WebSocket 实现 GPT-4o-transcribe 和 GPT-4o-mini-transcribe 的实时语音转录

使用 GPT-4o 实时 API 构建一个语音机器人

检索增强微调：使用 GPT-4o 微调 GPT-4o mini 模型以适用于特定领域应用

最近文章

分类

标签

友情链接

其它