Skip to main content
Glama
vitalemazo

Cloud Pilot MCP

by vitalemazo

cloud-pilot 提供了三个工具 —— search(搜索)、execute(执行)和 tofu —— 它们共同覆盖了 1,289 多种服务51,900 多种 API 操作,并具备完整的基础设施生命周期管理能力。在运行时发现 API,针对实时云状态执行脚本,并通过 OpenTofu 管理具有计划/应用/销毁功能的有状态部署。

当代理连接时,服务器会提供一个 资深云平台工程师角色 —— 包含工程原则、特定于提供商的专业知识、安全意识和结构化的工作流提示 —— 因此代理会自动按照生产级的云架构和安全标准进行操作。

演示:使用 OpenTofu 进行三层 AWS 部署 —— 通过 tofu 工具部署和销毁 VPC、ALB、ASG、RDS。

观看完整演示

v0.2 版本更新内容:

  • 原生 SDK 执行 —— AWS 调用使用 @aws-sdk/client-* 包(而非自定义 HTTP)。Azure 使用 @azure/core-rest-pipeline 并具备自动重试/限流功能。零序列化错误。

  • OpenTofu 集成 —— 新增用于有状态基础设施生命周期的 tofu 工具:编写 HCL、计划、应用、销毁、导入现有资源、漂移检测和回滚。

  • 4 级预演 (dry-run) 系统 —— 原生云提供商验证 (AWS DryRun)、会话强制门控、包含成本警告的影响摘要以及带有回滚计划的会话变更集。

  • 可配置的安全性 —— 每个提供商的 dryRunPolicyenforced(交互式会话)、optional(已批准的自动化)、disabled(只读机器人)。


目录

章节

描述

问题所在

现有方法为何不足

工作原理

三工具模式:搜索、执行、tofu

云提供商覆盖范围

4 个提供商,1,289 种服务,51,900 多种操作

架构

系统设计与组件概览

内置云工程角色

指令、资源、提示、配置

为什么选择 cloud-pilot?

当您需要在 AI 代理和云之间建立控制平面时

行动而非建议的代理

cloud-pilot 如何将 AI 从顾问转变为执行者 —— 真实部署示例

企业集成

ServiceNow、Teams/Slack,以及 MCP 如何实现跨云统一集成

使用 OpenTofu 进行基础设施生命周期管理

有状态部署:计划、应用、销毁、导入、漂移检测、回滚

实际应用场景

落地区、全球 WAN、K8s、事件响应、成本分析

入门指南

    快速开始

先决条件、安装与运行

    配置凭据

自动发现、环境变量、Vault、Azure AD

    使用 Docker 运行

容器部署

    连接到您的 MCP 客户端

stdio、HTTP、API 密钥认证

    平台集成示例

OpenAI SDK、Cursor、LangChain、自定义代理

参考

    配置参考

完整的 config.yaml 模式和环境变量覆盖

    动态 API 发现

三层规范系统:目录、索引、完整规范

    安全模型

沙箱隔离级别、模式、允许列表、审计追踪

    HTTP 传输安全

认证、CORS、限流

运维

    CI/CD 流水线

构建、测试、Docker、目录刷新

    项目结构

源码树导览

    扩展

添加提供商、认证后端、部署目标

    故障排除

常见问题与诊断步骤


问题所在

云提供商在数百种服务中公开了数千种 API 操作。传统的 AI 驱动云管理方法要么:

  • 硬编码少量工具(例如,“列出 EC2 实例”,“创建 S3 存储桶”)—— 将代理的能力限制在开发人员预期的范围内

  • 从 API 规范生成数百个 MCP 工具 —— 压垮代理的上下文窗口,使工具选择变得不可靠

  • 每次云提供商发布新服务时都需要手动更新

cloud-pilot-mcp 通过 搜索并执行模式 解决了这个问题:代理在运行时发现其所需内容,然后通过沙箱执行环境进行调用。无需预构建工具,无需固定的服务列表,无需手动更新。


工作原理

                  User                        Agent                      cloud-pilot-mcp
                   |                            |                              |
                   |  "Set up a Transit Gateway |                              |
                   |   connecting three VPCs"    |                              |
                   |--------------------------->|                              |
                   |                            |                              |
                   |                            |  search("transit gateway")   |
                   |                            |----------------------------->|
                   |                            |                              |
                   |                            |  CreateTransitGateway,       |
                   |                            |  CreateTGWVpcAttachment,     |
                   |                            |  CreateTGWRouteTable + schemas|
                   |                            |<-----------------------------|
                   |                            |                              |
                   |                            |  execute(provider: "aws",    |
                   |                            |    code: sdk.request({       |
                   |                            |      service: "ec2",         |
                   |                            |      action: "CreateTGW",    |
                   |                            |      params: {...}           |
                   |                            |    })                        |
                   |                            |----------------------------->|
                   |                            |                              |  QuickJS
                   |                            |                              |  Sandbox
                   |                            |                              |----+
                   |                            |                              |    | SigV4
                   |                            |                              |    | signed
                   |                            |                              |<---+
                   |                            |  Transit Gateway ID, state   |
                   |                            |<-----------------------------|
                   |                            |                              |
                   |  "Done! TGW tgw-0abc123    |                              |
                   |   created in us-east-1"    |                              |
                   |<---------------------------|                              |

代理在对话中推理存在哪些 API、规划序列并执行 —— 所有这些都在对话中完成。


云提供商覆盖范围

  +-------------------------------------------+
  |          51,900+ API Operations            |
  |                                            |
  |   +----------+  +---------+  +--------+   |
  |   |   AWS    |  |  Azure  |  |  GCP   |   |
  |   | 421 svcs |  | 240+    |  | 305    |   |
  |   | 18,109   |  | 3,157   |  | 12,599 |   |
  |   |   ops    |  |   ops   |  |  ops   |   |
  |   +----------+  +---------+  +--------+   |
  |                                            |
  |              +-----------+                 |
  |              |  Alibaba  |                 |
  |              |  323 svcs |                 |
  |              |  18,058   |                 |
  |              |    ops    |                 |
  |              +-----------+                 |
  +-------------------------------------------+

提供商

服务

操作

规范来源

认证

AWS

421

18,109

boto/botocore via jsDelivr CDN

AWS CLI / SDK 凭据链 -> 原生 @aws-sdk/client-*

Azure

240+

3,157

azure-rest-api-specs via GitHub CDN

Azure CLI / DefaultAzureCredential -> @azure/core-rest-pipeline

GCP

305

12,599

Google Discovery API (实时)

gcloud CLI / GoogleAuth -> Bearer 令牌

阿里云

323

18,058

阿里云 API + api-docs.json

aliyun CLI / 凭据链 -> ACS3-HMAC-SHA256

总计

1,289+

51,923

所有服务均动态发现 —— 无需预配置。当云提供商发布新服务时,它会在下一次目录刷新时自动可用。


架构

                         MCP Protocol (stdio or Streamable HTTP)
                                       |
                         +-------------v--------------+
                         |      cloud-pilot-mcp       |
                         |                            |
    +--------------------+----------------------------+--------------------+
    |                    |                            |                    |
    |  +--------------+  |  +--------------+          |  +--------------+  |
    |  |   Persona    |  |  |    search    |          |  |   Safety     |  |
    |  +--------------+  |  +--------------+          |  |   + Audit    |  |
    |  | Sr. Cloud    |  |  | 51,900+ ops  |          |  +--------------+  |
    |  | Platform     |  |  |              |          |  | read-only    |  |
    |  | Engineer     |  |  | Tier 1:      |          |  | allowlists   |  |
    |  |              |  |  |  Catalog     |          |  | blocklists   |  |
    |  | 8 principles |  |  |  (1,289 svc) |          |  | 4-level      |  |
    |  | 6 prompts    |  |  | Tier 2:      |          |  |  dry-run     |  |
    |  | 4 provider   |  |  |  Op Index    |          |  | audit trail  |  |
    |  |   guides     |  |  | Tier 3:      |          |  | dryRunPolicy |  |
    |  |              |  |  |  Full Spec   |          |  | rate limit   |  |
    |  +--------------+  |  +--------------+          |  +--------------+  |
    |                    |                            |                    |
    |  +--------------+  |  +--------------+          |                    |
    |  |   execute    |  |  |    tofu      |          |                    |
    |  +--------------+  |  +--------------+          |                    |
    |  | VM sandbox   |  |  | OpenTofu     |          |                    |
    |  | Native SDK   |  |  | plan/apply   |          |                    |
    |  | calls        |  |  | destroy      |          |                    |
    |  |              |  |  | import       |          |                    |
    |  | Fast reads,  |  |  | State mgmt   |          |                    |
    |  | ad-hoc       |  |  | Drift detect |          |                    |
    |  | scripts      |  |  | Rollback     |          |                    |
    |  +--------------+  |  +--------------+          |                    |
    +--------------------+----------------------------+--------------------+
                         |    |         |         |
                +--------+    +---+     +---+     +--------+
                |                 |         |              |
           +----v-----+    +-----v---+  +--v-----+  +-----v------+
           |   AWS    |    |  Azure  |  |  GCP   |  |  Alibaba   |
           | Native   |    | ARM     |  | REST   |  | ACS3-HMAC  |
           | SDK v3   |    | Pipeline|  | + Auth |  | + fetch    |
           | 421 svcs |    | 240+    |  | 305    |  | 323 svcs   |
           +----------+    +---------+  +--------+  +------------+

内置云工程角色

当任何 AI 代理连接到 cloud-pilot-mcp 时,服务器会自动通过四个层面塑造代理的行为:

服务器指令(始终交付)

在每次连接时,服务器都会发送 MCP instructions,将代理确立为 资深云平台工程师、安全架构师和 DevOps 专家,并具备:

  • 8 大核心原则:安全第一、基础设施即代码、最小化爆炸半径、纵深防御、成本意识、卓越运营、架构完善框架、默认高可用

  • 行为标准:先搜索后执行、修改前验证状态、变更操作先进行预演、解释推理、警告成本/风险、在变更的同时包含监控

  • 安全意识:理解并传达当前模式(只读/读写/完全)、尊重审计追踪、使用预演

这些指令是动态定制的,仅包含已配置的提供商、其模式、区域和允许的服务。

提供商专业知识(通过 MCP 资源按需获取)

深度、特定于提供商的工程指南(每份约 1,500 字)可作为 MCP 资源使用:

资源 URI

内容

cloud-pilot://persona/overview

包含所有原则和提供商摘要的完整角色文档

cloud-pilot://persona/aws

VPC/TGW 设计、IAM 角色、GuardDuty/SecurityHub、S3 生命周期、Graviton、反模式

cloud-pilot://persona/azure

落地区、Entra ID/托管身份、虚拟 WAN、Defender、策略、PIM

cloud-pilot://persona/gcp

共享 VPC、工作负载身份联合、GKE Autopilot、VPC 服务控制

cloud-pilot://persona/alibaba

CEN、RAM/STS、ACK、安全中心、中国特定(ICP、数据驻留)

cloud-pilot://safety/{provider}

当前安全模式、允许的服务、阻止的操作、审计配置

代理按需拉取这些资源 —— 它们不会给不需要它们的连接增加任何开销。

工作流提示(结构化的多步骤程序)

六个 MCP 提示提供了代理可以调用的、有主见的、多步骤工作流:

提示

功能

landing-zone

部署完整的云落地区:组织结构、身份、网络、安全基线、监控

incident-response

安全事件生命周期:遏制、调查、根除、恢复、事后分析

cost-optimization

全面成本审计:闲置资源、调整大小、预留容量、存储分层、网络成本

security-audit

全面安全审查:IAM、网络、加密、日志记录、合规性、漏洞管理

migration-assessment

工作负载迁移规划:发现、6R 策略、目标架构、迁移波次、切换

well-architected-review

跨 6 大支柱的架构完善框架审查,并提供原生推荐

每个提示都接受一个 provider 参数(动态限定为已配置的提供商),并返回代理使用 searchexecute 一步步遵循的结构化指导。

角色配置

角色默认启用。可在 config.yaml 中自定义或禁用:

persona:
  enabled: true                 # Set false to disable all persona features
  # instructionsOverride: "..." # Replace default instructions with your own
  # additionalGuidance: "..."   # Append custom policies (e.g., "All resources must be tagged with CostCenter")
  enablePrompts: true           # Set false to disable workflow prompts
  enableResources: true         # Set false to disable persona resources

或通过环境变量:CLOUD_PILOT_PERSONA_ENABLED=false


为什么选择 cloud-pilot?

如果您是使用 Claude Code 或 Cursor 且拥有自己 AWS 凭据的开发人员,您不需要这个 —— 直接运行 aws CLI 命令即可。AI 已经了解 CLI 语法,并且您信任自己拥有管理员访问权限。

cloud-pilot 的存在是为了当与您的云对话的不是终端里的您时。 它是不可信或半可信 AI 代理与您的云账户之间的控制平面。

SaaS 产品 —— 为您的客户提供云副驾驶

您构建了一个平台,客户可以在其中连接他们的 AWS/Azure/GCP 账户,他们的团队通过聊天界面管理基础设施。您不能给 AI 原始凭据 —— 您需要为初级工程师提供只读模式,为高级工程师提供读写模式,为合规性提供完整的审计追踪,以及服务允许列表,这样就不会有人意外触碰生产数据库。Cloud-pilot 是使这一切变得安全的中间件。

内部 DevOps 门户

贵公司有 50 名工程师。与其给每个人提供具有广泛 IAM 策略的 AWS 控制台访问权限,不如在内部聊天界面后部署 cloud-pilot。工程师询问“暂存环境里运行着什么?”或“扩展 ECS 服务”。MCP 强制执行谁可以读取与写入,记录每个操作,基础设施团队审查审计追踪。一套凭据,受控访问,完全可见性。

事件响应机器人

凌晨 3 点触发 PagerDuty 警报。自动化代理通过 cloud-pilot 连接,拉取 CloudWatch 指标,检查 EC2 实例状态,获取 CloudTrail 事件,并将摘要发布到 Slack —— 全部处于只读模式,并带有完整的审计日志。初步分类无需人工参与。机器人不会使情况恶化,因为它无法改变任何东西。

咨询公司的多云管理

咨询公司为不同客户管理 AWS、Azure 和 GCP。每个客户一个 MCP 服务器,每个服务器都有 Vault 来源的凭据、限定于其环境的允许列表和单独的审计日志。顾问使用他们喜欢的任何 AI 工具 —— Claude、ChatGPT、Cursor —— 全部通过 cloud-pilot。客户更换提供商?重新配置 MCP,代理工作流不会改变。

CI/CD 流水线智能

部署流水线中的代理使用 cloud-pilot 在部署前后验证基础设施状态 —— 检查安全组、验证 IAM 策略、确认 RDS 快照存在。只读,完全审计,流水线配置中没有凭据。如果看起来不对劲,它会阻止部署并解释原因。


行动而非建议的代理

大多数 AI 云工具为人类运行生成计划。cloud-pilot 是唯一让代理能够真正 执行、观察结果并做出反应 的路径 —— 检测到 NAT 网关仍处于挂起状态,轮询直到可用,然后添加路由。没有它,那将是您在中间参与的“运行这个,等待,然后运行那个”的对话。

在实践中是什么样子

在三层 AWS 架构(VPC、ALB、ASG、RDS)的实际部署中,cloud-pilot 使代理能够:

  1. 实时状态感知 —— 发现账户只有一个默认 VPC,在编写一行基础设施代码之前调整了整个计划

  2. 错误恢复 —— 在沙箱中遇到 Buffer not defined 错误,立即用手动 base64 编码器重写,没有中断用户

  3. 顺序依赖 —— NAT 网关就绪 → 添加路由 → ASG 健康 → RDS 状态检查,全部在一次执行调用中自主链接

  4. 护栏强制执行 —— cloud-pilot 在坏的 API 调用(错误的参数大小写、范围外的服务)到达云提供商之前就阻止了它们

核心价值:AI 成为执行者,而非顾问。 cloud-pilot 将“这是 Terraform 文件,去运行它”变成了部署、观察、修复和确认的代理 —— 全部在一个会话中完成。


企业集成

cloud-pilot 使用 MCP(模型上下文协议),这意味着任何支持 MCP 的 AI 平台都可以将其用作云控制平面。

-
security - not tested
A
license - permissive license
-
quality - not tested

Resources

Unclaimed servers have limited discoverability.

Looking for Admin?

If you are the server author, to access and configure the admin panel.

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/vitalemazo/cloud-pilot-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server