AgentDesk MCP — 对抗性 AI 审查

npm version npm downloads License: MIT Tests MCP

AI 流水线的质量控制 —— 一个 MCP 工具。适用于 Claude Code、Claude Desktop 以及任何 MCP 客户端。

29.5% 的团队不对 AI 输出进行任何评估。 (LangChain 调查) 知识工作者每周花费 4.3 小时核实 AI 输出。 (微软 2025)

AgentDesk MCP 解决了这个问题。在 30 秒内为任何 AI 流水线添加独立的对抗性审查。

快速开始

npm (推荐)

npx @ezark-publish/agentdesk-mcp

Claude Code

claude mcp add agentdesk-mcp -- npx @ezark-publish/agentdesk-mcp

Claude Desktop

{
  "mcpServers": {
    "agentdesk-mcp": {
      "command": "npx",
      "args": ["-y", "@ezark-publish/agentdesk-mcp"],
      "env": { "ANTHROPIC_API_KEY": "sk-ant-..." }
    }
  }
}

HTTP 传输 (可流式传输的 HTTP)

作为 HTTP 服务器运行，用于远程访问、Smithery 托管或多客户端设置：

# Start with HTTP transport on port 3100
MCP_HTTP_PORT=3100 npx @ezark-publish/agentdesk-mcp

# Or use the --http flag (defaults to port 3100)
npx @ezark-publish/agentdesk-mcp --http

MCP 端点：POST http://localhost:3100/mcp 健康检查：GET http://localhost:3100/health

从 GitHub 安装 (替代方案)

npm install github:Rih0z/agentdesk-mcp

要求

ANTHROPIC_API_KEY 环境变量（使用您自己的密钥 —— BYOK）

工具

`review_output`

对任何 AI 生成的输出进行对抗性质量审查。独立的审查员会假设作者犯了错误，并主动寻找问题。

输入：

参数	必需	描述
`output`	是	待审查的 AI 生成输出
`criteria`	否	自定义审查标准
`review_type`	否	类别：`code`（代码）、`content`（内容）、`factual`（事实）、`translation`（翻译）等
`model`	否	审查员模型（默认：`claude-sonnet-4-6`）

输出：

{
  "verdict": "PASS | FAIL | CONDITIONAL_PASS",
  "score": 82,
  "issues": [
    {
      "severity": "high",
      "category": "accuracy",
      "description": "Claim about X is unsupported",
      "suggestion": "Add citation or remove claim"
    }
  ],
  "checklist": [
    {
      "item": "Factual accuracy",
      "status": "pass",
      "evidence": "All statistics match cited sources"
    }
  ],
  "summary": "Overall assessment...",
  "reviewer_model": "claude-sonnet-4-6"
}

`review_dual`

双重对抗性审查 —— 两名独立的审查员从不同角度评估输出，然后由合并代理汇总结果。

如果任何一位审查员发现关键问题 → 合并后的结论为 FAIL（失败）
采用较低的分数
合并并去重所有问题

适用于质量至关重要的高风险输出。

参数与 review_output 相同。

工作原理

对抗性提示词：指示审查员假设输出存在错误。不给予任何信任。
基于证据的检查清单：每一项 PASS（通过）都需要具体证据。没有证据的项目会自动降级为 FAIL（失败）。
防作弊验证：如果超过 30% 的检查清单项目缺乏证据，整个审查将被强制判定为 FAIL，且分数上限为 50 分。
结构化输出：结论 + 数值分数 + 分类问题 + 检查清单（不仅仅是“看起来不错”）。

使用场景

代码审查：检查错误、安全问题、性能问题
内容审查：验证准确性、可读性、SEO、受众匹配度
事实核查：验证 AI 生成文本中的声明
翻译质量：检查准确性和自然度
数据提取：验证完整性和正确性
任何 AI 输出：摘要、报告、提案、电子邮件等

为什么不直接让同一个 AI 进行审查？

自我审查存在系统性的宽容偏差。审查自身输出的 LLM 共享导致错误的相同盲点。研究表明，模型在产生幻觉时使用自信语言的可能性高出 34%。

AgentDesk 使用独立的审查员调用和对抗性提示词 —— 这与自我审查有着本质区别。

对比

功能	AgentDesk MCP	手动提示词	Braintrust	DeepEval
单工具设置	是	否	否	否
对抗性审查	是	自行实现	否	否
双重审查员	是	自行实现	否	否
防作弊验证	是	否	否	否
无需 SDK	是	是	否	否
原生 MCP	是	否	否	否

局限性

提示词注入：与所有“LLM 作为裁判”的系统一样，对抗性输入可能会试图操纵审查员的结论。防作弊验证层可以缓解表面的作弊行为，但坚定的对抗性输入仍然是一个挑战。对于高风险用例，请结合确定性验证使用。
BYOK 成本：每次 review_output 调用会进行 1 次 LLM API 调用；review_dual 会进行 3 次。请将其计入您的流水线成本中。

托管 API (独立产品)

对于偏好 HTTP 集成的团队，我们提供了一个带有额外功能（代理市场、上下文学习、工作流）的托管 REST API，网址为 agentdesk.usedevtools.com。

开发

git clone https://github.com/Rih0z/agentdesk-mcp.git
cd agentdesk-mcp
npm install
npm test        # 35 tests
npm run build

许可证

MIT

由 EZARK Consulting 构建 | 网页版

agentdesk-mcp