agentdesk-mcp
AgentDesk MCP — Revisión de IA Adversarial
Control de calidad para procesos de IA — una herramienta MCP. Funciona con Claude Code, Claude Desktop y cualquier cliente MCP.
El 29.5% de los equipos NO realiza ninguna evaluación de los resultados de la IA. (Encuesta de LangChain) Los trabajadores del conocimiento dedican 4.3 horas/semana a verificar los resultados de la IA. (Microsoft 2025)
AgentDesk MCP soluciona esto. Añade una revisión adversarial independiente a cualquier proceso de IA en 30 segundos.
Inicio rápido
npm (recomendado)
npx @ezark-publish/agentdesk-mcpClaude Code
claude mcp add agentdesk-mcp -- npx @ezark-publish/agentdesk-mcpClaude Desktop
{
"mcpServers": {
"agentdesk-mcp": {
"command": "npx",
"args": ["-y", "@ezark-publish/agentdesk-mcp"],
"env": { "ANTHROPIC_API_KEY": "sk-ant-..." }
}
}
}Transporte HTTP (HTTP transmitible)
Ejecútalo como un servidor HTTP para acceso remoto, alojamiento en Smithery o configuraciones de múltiples clientes:
# Start with HTTP transport on port 3100
MCP_HTTP_PORT=3100 npx @ezark-publish/agentdesk-mcp
# Or use the --http flag (defaults to port 3100)
npx @ezark-publish/agentdesk-mcp --httpEndpoint de MCP: POST http://localhost:3100/mcp
Verificación de estado: GET http://localhost:3100/health
Instalar desde GitHub (alternativa)
npm install github:Rih0z/agentdesk-mcpRequisitos
Variable de entorno
ANTHROPIC_API_KEY(utiliza tu propia clave — BYOK)
Herramientas
review_output
Revisión de calidad adversarial de cualquier resultado generado por IA. Un revisor independiente asume que el autor cometió errores y busca activamente problemas.
Entrada:
Parámetro | Requerido | Descripción |
| Sí | El resultado generado por la IA a revisar |
| No | Criterios de revisión personalizados |
| No | Categoría: |
| No | Modelo de revisor (predeterminado: |
Salida:
{
"verdict": "PASS | FAIL | CONDITIONAL_PASS",
"score": 82,
"issues": [
{
"severity": "high",
"category": "accuracy",
"description": "Claim about X is unsupported",
"suggestion": "Add citation or remove claim"
}
],
"checklist": [
{
"item": "Factual accuracy",
"status": "pass",
"evidence": "All statistics match cited sources"
}
],
"summary": "Overall assessment...",
"reviewer_model": "claude-sonnet-4-6"
}review_dual
Revisión adversarial dual — dos revisores independientes evalúan el resultado desde diferentes ángulos, luego un agente de fusión combina los hallazgos.
Si cualquiera de los revisores encuentra un problema crítico → el veredicto combinado es FAIL (FALLO)
Toma la puntuación más baja
Combina y elimina duplicados de todos los problemas
Úsalo para resultados de alto riesgo donde la calidad es crítica.
Mismos parámetros que review_output.
Cómo funciona
Prompting adversarial: Se instruye al revisor para que asuma que se cometieron errores. Sin beneficio de la duda.
Lista de verificación basada en evidencia: Cada elemento PASS (APROBADO) requiere evidencia específica. Los elementos sin evidencia se degradan automáticamente a FAIL (FALLO).
Validación anti-juego: Si más del 30% de los elementos de la lista de verificación carecen de evidencia, toda la revisión se fuerza a FAIL (FALLO) con una puntuación máxima de 50.
Salida estructurada: Veredicto + puntuación numérica + problemas categorizados + lista de verificación (no solo "se ve bien").
Casos de uso
Revisión de código: Comprobar errores, problemas de seguridad, problemas de rendimiento
Revisión de contenido: Verificar precisión, legibilidad, SEO, adecuación a la audiencia
Verificación factual: Validar afirmaciones en texto generado por IA
Calidad de traducción: Comprobar precisión y naturalidad
Extracción de datos: Verificar integridad y corrección
Cualquier resultado de IA: Resúmenes, informes, propuestas, correos electrónicos, etc.
¿Por qué no pedirle a la misma IA que revise?
La autoevaluación tiene un sesgo de indulgencia sistemático. Un LLM que revisa su propio resultado comparte los mismos puntos ciegos que crearon los errores. La investigación muestra que los modelos tienen un 34% más de probabilidades de usar un lenguaje confiado cuando alucinan.
AgentDesk utiliza una invocación de revisor separada con prompting adversarial, fundamentalmente diferente de la autoevaluación.
Comparación
Característica | AgentDesk MCP | Prompt manual | Braintrust | DeepEval |
Configuración de una herramienta | Sí | No | No | No |
Revisión adversarial | Sí | DIY | No | No |
Revisor dual | Sí | DIY | No | No |
Validación anti-juego | Sí | No | No | No |
No requiere SDK | Sí | Sí | No | No |
Nativo de MCP | Sí | No | No | No |
Limitaciones
Inyección de prompt: Como todos los sistemas de LLM-como-juez, las entradas adversariales podrían intentar manipular los veredictos del revisor. La capa de validación anti-juego mitiga el juego superficial, pero las entradas adversariales determinadas siguen siendo un desafío. Para casos de uso de alto riesgo, combínalo con validación determinista.
Costo BYOK: Cada llamada a
review_outputrealiza 1 llamada a la API de LLM;review_dualrealiza 3. Ten esto en cuenta en los costos de tu proceso.
API alojada (Producto separado)
Para equipos que prefieren la integración HTTP, una API REST alojada con características adicionales (mercado de agentes, aprendizaje de contexto, flujos de trabajo) está disponible en agentdesk.usedevtools.com.
Desarrollo
git clone https://github.com/Rih0z/agentdesk-mcp.git
cd agentdesk-mcp
npm install
npm test # 35 tests
npm run buildLicencia
MIT
Creado por EZARK Consulting | Versión web
Appeared in Searches
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/Rih0z/agentdesk-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server