Skip to main content
Glama

AgentDesk MCP — Revisión de IA Adversarial

npm version npm downloads License: MIT Tests MCP

Control de calidad para procesos de IA — una herramienta MCP. Funciona con Claude Code, Claude Desktop y cualquier cliente MCP.

El 29.5% de los equipos NO realiza ninguna evaluación de los resultados de la IA. (Encuesta de LangChain) Los trabajadores del conocimiento dedican 4.3 horas/semana a verificar los resultados de la IA. (Microsoft 2025)

AgentDesk MCP soluciona esto. Añade una revisión adversarial independiente a cualquier proceso de IA en 30 segundos.

Inicio rápido

npm (recomendado)

npx @ezark-publish/agentdesk-mcp

Claude Code

claude mcp add agentdesk-mcp -- npx @ezark-publish/agentdesk-mcp

Claude Desktop

{
  "mcpServers": {
    "agentdesk-mcp": {
      "command": "npx",
      "args": ["-y", "@ezark-publish/agentdesk-mcp"],
      "env": { "ANTHROPIC_API_KEY": "sk-ant-..." }
    }
  }
}

Transporte HTTP (HTTP transmitible)

Ejecútalo como un servidor HTTP para acceso remoto, alojamiento en Smithery o configuraciones de múltiples clientes:

# Start with HTTP transport on port 3100
MCP_HTTP_PORT=3100 npx @ezark-publish/agentdesk-mcp

# Or use the --http flag (defaults to port 3100)
npx @ezark-publish/agentdesk-mcp --http

Endpoint de MCP: POST http://localhost:3100/mcp Verificación de estado: GET http://localhost:3100/health

Instalar desde GitHub (alternativa)

npm install github:Rih0z/agentdesk-mcp

Requisitos

  • Variable de entorno ANTHROPIC_API_KEY (utiliza tu propia clave — BYOK)

Herramientas

review_output

Revisión de calidad adversarial de cualquier resultado generado por IA. Un revisor independiente asume que el autor cometió errores y busca activamente problemas.

Entrada:

Parámetro

Requerido

Descripción

output

El resultado generado por la IA a revisar

criteria

No

Criterios de revisión personalizados

review_type

No

Categoría: code, content, factual, translation, etc.

model

No

Modelo de revisor (predeterminado: claude-sonnet-4-6)

Salida:

{
  "verdict": "PASS | FAIL | CONDITIONAL_PASS",
  "score": 82,
  "issues": [
    {
      "severity": "high",
      "category": "accuracy",
      "description": "Claim about X is unsupported",
      "suggestion": "Add citation or remove claim"
    }
  ],
  "checklist": [
    {
      "item": "Factual accuracy",
      "status": "pass",
      "evidence": "All statistics match cited sources"
    }
  ],
  "summary": "Overall assessment...",
  "reviewer_model": "claude-sonnet-4-6"
}

review_dual

Revisión adversarial dual — dos revisores independientes evalúan el resultado desde diferentes ángulos, luego un agente de fusión combina los hallazgos.

  • Si cualquiera de los revisores encuentra un problema crítico → el veredicto combinado es FAIL (FALLO)

  • Toma la puntuación más baja

  • Combina y elimina duplicados de todos los problemas

Úsalo para resultados de alto riesgo donde la calidad es crítica.

Mismos parámetros que review_output.

Cómo funciona

  1. Prompting adversarial: Se instruye al revisor para que asuma que se cometieron errores. Sin beneficio de la duda.

  2. Lista de verificación basada en evidencia: Cada elemento PASS (APROBADO) requiere evidencia específica. Los elementos sin evidencia se degradan automáticamente a FAIL (FALLO).

  3. Validación anti-juego: Si más del 30% de los elementos de la lista de verificación carecen de evidencia, toda la revisión se fuerza a FAIL (FALLO) con una puntuación máxima de 50.

  4. Salida estructurada: Veredicto + puntuación numérica + problemas categorizados + lista de verificación (no solo "se ve bien").

Casos de uso

  • Revisión de código: Comprobar errores, problemas de seguridad, problemas de rendimiento

  • Revisión de contenido: Verificar precisión, legibilidad, SEO, adecuación a la audiencia

  • Verificación factual: Validar afirmaciones en texto generado por IA

  • Calidad de traducción: Comprobar precisión y naturalidad

  • Extracción de datos: Verificar integridad y corrección

  • Cualquier resultado de IA: Resúmenes, informes, propuestas, correos electrónicos, etc.

¿Por qué no pedirle a la misma IA que revise?

La autoevaluación tiene un sesgo de indulgencia sistemático. Un LLM que revisa su propio resultado comparte los mismos puntos ciegos que crearon los errores. La investigación muestra que los modelos tienen un 34% más de probabilidades de usar un lenguaje confiado cuando alucinan.

AgentDesk utiliza una invocación de revisor separada con prompting adversarial, fundamentalmente diferente de la autoevaluación.

Comparación

Característica

AgentDesk MCP

Prompt manual

Braintrust

DeepEval

Configuración de una herramienta

No

No

No

Revisión adversarial

DIY

No

No

Revisor dual

DIY

No

No

Validación anti-juego

No

No

No

No requiere SDK

No

No

Nativo de MCP

No

No

No

Limitaciones

  • Inyección de prompt: Como todos los sistemas de LLM-como-juez, las entradas adversariales podrían intentar manipular los veredictos del revisor. La capa de validación anti-juego mitiga el juego superficial, pero las entradas adversariales determinadas siguen siendo un desafío. Para casos de uso de alto riesgo, combínalo con validación determinista.

  • Costo BYOK: Cada llamada a review_output realiza 1 llamada a la API de LLM; review_dual realiza 3. Ten esto en cuenta en los costos de tu proceso.

API alojada (Producto separado)

Para equipos que prefieren la integración HTTP, una API REST alojada con características adicionales (mercado de agentes, aprendizaje de contexto, flujos de trabajo) está disponible en agentdesk.usedevtools.com.

Desarrollo

git clone https://github.com/Rih0z/agentdesk-mcp.git
cd agentdesk-mcp
npm install
npm test        # 35 tests
npm run build

Licencia

MIT


Creado por EZARK Consulting | Versión web

Install Server
A
security – no known vulnerabilities
A
license - permissive license
B
quality - B tier

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/Rih0z/agentdesk-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server