Skip to main content
Glama

AgentDesk MCP — 적대적 AI 검토

npm version npm downloads License: MIT Tests MCP

AI 파이프라인을 위한 품질 관리 — 단일 MCP 도구. Claude Code, Claude Desktop 및 모든 MCP 클라이언트와 호환됩니다.

팀의 29.5%는 AI 결과물에 대한 평가를 전혀 수행하지 않습니다. (LangChain 설문조사) 지식 노동자는 매주 4.3시간을 AI 결과물 사실 확인에 소비합니다. (Microsoft 2025)

AgentDesk MCP가 이를 해결합니다. 30초 만에 모든 AI 파이프라인에 독립적인 적대적 검토 기능을 추가하세요.

빠른 시작

npm (권장)

npx @ezark-publish/agentdesk-mcp

Claude Code

claude mcp add agentdesk-mcp -- npx @ezark-publish/agentdesk-mcp

Claude Desktop

{
  "mcpServers": {
    "agentdesk-mcp": {
      "command": "npx",
      "args": ["-y", "@ezark-publish/agentdesk-mcp"],
      "env": { "ANTHROPIC_API_KEY": "sk-ant-..." }
    }
  }
}

HTTP 전송 (스트리밍 가능한 HTTP)

원격 액세스, Smithery 호스팅 또는 다중 클라이언트 설정을 위해 HTTP 서버로 실행하세요:

# Start with HTTP transport on port 3100
MCP_HTTP_PORT=3100 npx @ezark-publish/agentdesk-mcp

# Or use the --http flag (defaults to port 3100)
npx @ezark-publish/agentdesk-mcp --http

MCP 엔드포인트: POST http://localhost:3100/mcp 상태 확인: GET http://localhost:3100/health

GitHub에서 설치 (대안)

npm install github:Rih0z/agentdesk-mcp

요구 사항

  • ANTHROPIC_API_KEY 환경 변수 (사용자 본인의 키 사용 — BYOK)

도구

review_output

AI가 생성한 모든 결과물에 대한 적대적 품질 검토. 독립적인 검토자가 작성자가 실수를 저질렀다고 가정하고 적극적으로 문제를 찾습니다.

입력:

매개변수

필수

설명

output

검토할 AI 생성 결과물

criteria

아니요

사용자 지정 검토 기준

review_type

아니요

카테고리: code, content, factual, translation

model

아니요

검토자 모델 (기본값: claude-sonnet-4-6)

출력:

{
  "verdict": "PASS | FAIL | CONDITIONAL_PASS",
  "score": 82,
  "issues": [
    {
      "severity": "high",
      "category": "accuracy",
      "description": "Claim about X is unsupported",
      "suggestion": "Add citation or remove claim"
    }
  ],
  "checklist": [
    {
      "item": "Factual accuracy",
      "status": "pass",
      "evidence": "All statistics match cited sources"
    }
  ],
  "summary": "Overall assessment...",
  "reviewer_model": "claude-sonnet-4-6"
}

review_dual

이중 적대적 검토 — 두 명의 독립적인 검토자가 서로 다른 관점에서 결과물을 평가한 후, 병합 에이전트가 결과를 종합합니다.

  • 검토자 중 한 명이라도 치명적인 문제를 발견하면 → 병합된 판정은 FAIL(실패)

  • 낮은 점수를 채택

  • 모든 문제를 결합하고 중복 제거

품질이 중요한 고위험 결과물에 사용하세요.

review_output과 동일한 매개변수를 사용합니다.

작동 원리

  1. 적대적 프롬프팅: 검토자는 실수가 있었다고 가정하도록 지시받습니다. 의심의 여지를 두지 않습니다.

  2. 증거 기반 체크리스트: 모든 PASS 항목은 구체적인 증거를 요구합니다. 증거가 없는 항목은 자동으로 FAIL로 강등됩니다.

  3. 게임화 방지 검증: 체크리스트 항목의 30% 이상에 증거가 부족하면, 전체 검토는 50점으로 제한된 FAIL 판정을 받습니다.

  4. 구조화된 출력: 판정 + 숫자 점수 + 분류된 문제 + 체크리스트 (단순히 "좋아 보임"이 아님).

사용 사례

  • 코드 검토: 버그, 보안 문제, 성능 문제 확인

  • 콘텐츠 검토: 정확성, 가독성, SEO, 대상 적합성 확인

  • 사실 확인: AI 생성 텍스트의 주장 검증

  • 번역 품질: 정확성 및 자연스러움 확인

  • 데이터 추출: 완전성 및 정확성 확인

  • 모든 AI 결과물: 요약, 보고서, 제안서, 이메일 등

왜 같은 AI에게 검토를 요청하면 안 되나요?

자기 검토에는 체계적인 관대함 편향이 있습니다. 자신의 결과물을 검토하는 LLM은 오류를 생성한 것과 동일한 사각지대를 공유합니다. 연구에 따르면 모델은 환각을 일으킬 때 확신에 찬 언어를 사용할 확률이 34% 더 높습니다.

AgentDesk는 적대적 프롬프팅을 사용하는 별도의 검토자 호출을 사용하며, 이는 자기 검토와 근본적으로 다릅니다.

비교

기능

AgentDesk MCP

수동 프롬프트

Braintrust

DeepEval

단일 도구 설정

아니요

아니요

아니요

적대적 검토

DIY

아니요

아니요

이중 검토자

DIY

아니요

아니요

게임화 방지 검증

아니요

아니요

아니요

SDK 불필요

아니요

아니요

MCP 네이티브

아니요

아니요

아니요

제한 사항

  • 프롬프트 인젝션: 모든 LLM-as-judge 시스템과 마찬가지로, 적대적 입력이 검토자의 판정을 조작하려고 시도할 수 있습니다. 게임화 방지 검증 계층이 피상적인 조작을 완화하지만, 의도적인 적대적 입력은 여전히 과제로 남아 있습니다. 고위험 사용 사례의 경우 결정론적 검증과 결합하십시오.

  • BYOK 비용: 각 review_output 호출은 1회의 LLM API 호출을 수행하며, review_dual은 3회를 수행합니다. 이를 파이프라인 비용에 고려하십시오.

호스팅된 API (별도 제품)

HTTP 통합을 선호하는 팀을 위해 추가 기능(에이전트 마켓플레이스, 컨텍스트 학습, 워크플로우)이 포함된 호스팅된 REST API를 agentdesk.usedevtools.com에서 이용할 수 있습니다.

개발

git clone https://github.com/Rih0z/agentdesk-mcp.git
cd agentdesk-mcp
npm install
npm test        # 35 tests
npm run build

라이선스

MIT


제작: EZARK Consulting | 웹 버전

Install Server
A
security – no known vulnerabilities
A
license - permissive license
B
quality - B tier

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/Rih0z/agentdesk-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server