AgentDesk MCP — 敵対的AIレビュー

npm version npm downloads License: MIT Tests MCP

AIパイプラインのための品質管理 — 単一のMCPツール。Claude Code、Claude Desktop、およびあらゆるMCPクライアントで動作します。

チームの29.5%がAI出力の評価を全く行っていません。 (LangChain調査) ナレッジワーカーは週に4.3時間をAI出力の事実確認に費やしています。 (Microsoft 2025)

AgentDesk MCPがこれを解決します。あらゆるAIパイプラインに、30秒で独立した敵対的レビューを追加できます。

クイックスタート

npm (推奨)

npx @ezark-publish/agentdesk-mcp

Claude Code

claude mcp add agentdesk-mcp -- npx @ezark-publish/agentdesk-mcp

Claude Desktop

{
  "mcpServers": {
    "agentdesk-mcp": {
      "command": "npx",
      "args": ["-y", "@ezark-publish/agentdesk-mcp"],
      "env": { "ANTHROPIC_API_KEY": "sk-ant-..." }
    }
  }
}

HTTPトランスポート (ストリーミングHTTP)

リモートアクセス、Smitheryホスティング、またはマルチクライアント設定のためにHTTPサーバーとして実行します：

# Start with HTTP transport on port 3100
MCP_HTTP_PORT=3100 npx @ezark-publish/agentdesk-mcp

# Or use the --http flag (defaults to port 3100)
npx @ezark-publish/agentdesk-mcp --http

MCPエンドポイント: POST http://localhost:3100/mcp ヘルスチェック: GET http://localhost:3100/health

GitHubからインストール (代替)

npm install github:Rih0z/agentdesk-mcp

要件

ANTHROPIC_API_KEY 環境変数 (独自のキーを使用 — BYOK)

ツール

`review_output`

AIが生成したあらゆる出力に対する敵対的品質レビュー。独立したレビュアーが作成者にミスがあることを前提として、積極的に問題を探します。

入力:

パラメータ	必須	説明
`output`	はい	レビュー対象のAI生成出力
`criteria`	いいえ	カスタムレビュー基準
`review_type`	いいえ	カテゴリ: `code`, `content`, `factual`, `translation` など
`model`	いいえ	レビュアーモデル (デフォルト: `claude-sonnet-4-6`)

出力:

{
  "verdict": "PASS | FAIL | CONDITIONAL_PASS",
  "score": 82,
  "issues": [
    {
      "severity": "high",
      "category": "accuracy",
      "description": "Claim about X is unsupported",
      "suggestion": "Add citation or remove claim"
    }
  ],
  "checklist": [
    {
      "item": "Factual accuracy",
      "status": "pass",
      "evidence": "All statistics match cited sources"
    }
  ],
  "summary": "Overall assessment...",
  "reviewer_model": "claude-sonnet-4-6"
}

`review_dual`

二重敵対的レビュー — 2人の独立したレビュアーが異なる視点から出力を評価し、マージエージェントが結果を統合します。

どちらか一方のレビュアーが重大な問題を発見した場合 → 統合判定は FAIL となります
低い方のスコアを採用します
すべての問題を統合し、重複を排除します

品質が極めて重要な高リスクの出力に使用してください。

パラメータは review_output と同じです。

仕組み

敵対的プロンプト: レビュアーはミスがあることを前提とするよう指示されます。疑わしきは罰する姿勢です。
証拠に基づくチェックリスト: すべての PASS 項目には具体的な証拠が必要です。証拠のない項目は自動的に FAIL に格下げされます。
不正防止バリデーション: チェックリスト項目の30%以上に証拠がない場合、レビュー全体が強制的に FAIL となり、スコアは最大50に制限されます。
構造化された出力: 判定 + 数値スコア + カテゴリ化された問題 + チェックリスト (単なる「良さそう」という評価ではありません)。

ユースケース

コードレビュー: バグ、セキュリティ問題、パフォーマンス問題のチェック
コンテンツレビュー: 正確性、読みやすさ、SEO、ターゲット適合性の検証
事実確認: AI生成テキスト内の主張の妥当性検証
翻訳品質: 正確さと自然さのチェック
データ抽出: 完全性と正確性の検証
あらゆるAI出力: 要約、レポート、提案書、メールなど

なぜ同じAIにレビューさせないのか？

自己レビューには体系的な寛容バイアスがあります。自身の出力をレビューするLLMは、エラーを生み出したのと同じ盲点を共有しています。研究によると、モデルはハルシネーション（幻覚）を起こしている時ほど、自信に満ちた言語を使用する傾向が34%高いことが示されています。

AgentDeskは、敵対的プロンプトを用いた別のレビュアーの呼び出しを使用しており、自己レビューとは根本的に異なります。

比較

機能	AgentDesk MCP	手動プロンプト	Braintrust	DeepEval
ワンツール設定	はい	いいえ	いいえ	いいえ
敵対的レビュー	はい	DIY	いいえ	いいえ
二重レビュアー	はい	DIY	いいえ	いいえ
不正防止バリデーション	はい	いいえ	いいえ	いいえ
SDK不要	はい	はい	いいえ	いいえ
MCPネイティブ	はい	いいえ	いいえ	いいえ

制限事項

プロンプトインジェクション: すべての「LLM-as-judge（判定者としてのLLM）」システムと同様に、敵対的な入力がレビュアーの判定を操作しようとする可能性があります。不正防止バリデーション層は表面的な不正を緩和しますが、執拗な敵対的入力は依然として課題です。高リスクのユースケースでは、決定論的なバリデーションと組み合わせてください。
BYOKコスト: review_output の呼び出しごとに1回のLLM API呼び出しが発生し、review_dual では3回発生します。これをパイプラインのコストに含めてください。

ホスト型API (別製品)

HTTP統合を好むチーム向けに、追加機能（エージェントマーケットプレイス、コンテキスト学習、ワークフロー）を備えたホスト型REST APIを agentdesk.usedevtools.com で提供しています。

開発

git clone https://github.com/Rih0z/agentdesk-mcp.git
cd agentdesk-mcp
npm install
npm test        # 35 tests
npm run build

ライセンス

MIT

Built by EZARK Consulting | Web Version

agentdesk-mcp