通过MCP一键集成和Computer Use Agent模型,实现Azure Foundry中的AI自动化
最近在折腾Azure AI Foundry时,发现它现在可以通过OpenAI的Responses API无缝集成Model Context Protocol(MCP)服务器。以前要自己写MCP客户端,挺麻烦的,现在直接配置就能用,开发Agentic AI方案变得简单多了。
场景:时尚趋势发现
举个例子,假如你是时尚分析师,只需要在命令行里输入类似“可持续时尚的最新趋势”这样的查询,系统就能自动帮你搞定后续所有流程:
- 自动网页导航:Agent会打开Pinterest,自动找到搜索框并输入查询。
- 智能内容发现:系统会识别并点击趋势图片,进入详情页。
- 内容分析:用计算机视觉分析时尚元素、颜色、图案和设计趋势。
- 智能整理:把分析结果汇总成专业的Markdown报告。
- 上下文存储:系统还能自动判断是否需要把报告存到云端,比如Azure Blob Storage。
技术能力拆解
整个体验背后,其实是多个AI模型的协作:
- Pinterest导航:CUA模型能像人一样“看懂”网页布局,精准找到搜索框和导航元素。
- 搜索结果处理:不用传统的DOM解析,Agent直接用视觉理解识别图片,计算点击坐标。
- 内容分析:每个趋势图片都用GPT-4o的视觉能力做详细分析,提取时尚元素、季节趋势等。
- 自动决策:Agent能判断哪些信息需要保存,并自动调用云存储。
技术架构一览
整体架构大致如下:
┌─────────────────────────────────────────────────────────────────┐
│ Azure AI Foundry │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ Responses API │ │
│ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────────┐ │ │
│ │ │ CUA Model │ │ GPT-4o │ │ Built-in MCP │ │ │
│ │ │ (Interface) │ │ (Content) │ │ Client │ │ │
│ │ └─────────────┘ └─────────────┘ └─────────────────┘ │ │
│ └─────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
│
▼
┌─────────────────────────────────────────┐
│ Function Calling Layer │
│ (Workflow Orchestration) │
└─────────────────────────────────────────┘
│
▼
┌─────────────────┐ ┌──────────────────┐
│ Playwright │◄──────────────► │ Trends Compiler │
│ Automation │ │ Engine │
└─────────────────┘ └──────────────────┘
│
▼
┌─────────────────────┐
│ Azure Blob │
│ Storage (MCP) │
└─────────────────────┘
各技术模块说明
- Responses API:负责智能决策,判断什么时候用CUA模型做网页操作,什么时候用MCP存储数据。
- CUA模型:专门训练来理解网页结构,能给出精确的点击坐标。
- Playwright自动化:把CUA模型的“看法”转化为实际的浏览器操作,比如点击、输入、截图等。
- GPT-4o视觉模型:分析图片内容,提取时尚趋势和语义信息。
- MCP集成:Agent能自动判断何时需要存储数据,通过内置MCP客户端直接和Azure Blob Storage通信,无需自己写存储逻辑。
代码片段与智能决策
主流程在app.py
里,核心逻辑大致如下:
|
|
Agent会根据上下文自动选择是编译趋势报告还是存储数据,整个过程无需人工干预。
趋势编译器的自动化流程
compiler.py
里的TrendsCompiler
类实现了多步自验证的自动化:
|
|
每一步都自检,遇到异常也能自动处理,完全不需要人工介入。
Pinterest视觉坐标提取
CUA模型能直接“看”截图,提取图片的坐标:
|
|
再通过中心点算法,确保点击精准:
|
|
模型分工与协作
- CUA模型:负责“点哪里”“怎么导航”。
- GPT-4o:负责“这是什么”“有什么意义”。
- 协同智能:各司其职,互补长短。
自动生成Markdown报告
报告自动结构化,内容丰富:
|
|
MCP一键集成
无需自己写MCP客户端,配置好就能用:
|
|
总结
通过Azure AI Foundry的MCP一键集成、CUA模型、GPT-4o和Playwright自动化,完全可以实现无需人工干预的Agentic AI应用。整个流程从网页导航、内容分析到云端存储,全自动完成,极大提升了开发效率和智能化水平。
相关代码和Demo可参考CUA-Trends-Compiler GitHub仓库。
如需进一步了解Agentic AI和自动化方案,建议直接体验Azure AI Foundry的MCP集成和Computer Use能力,开启你的智能自动化之旅。
- 原文作者:BeanHsiang
- 原文链接:https://beanhsiang.github.io/post/2025-06-30-ai-automation-in-azure-foundry-through-turnkey-mcp-integration-and-computer-use/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议. 进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。