agentdesk-mcp
AgentDesk MCP — Adversarial AI Review
Qualitätskontrolle für KI-Pipelines — ein MCP-Tool. Funktioniert mit Claude Code, Claude Desktop und jedem MCP-Client.
29,5 % der Teams führen KEINE Evaluierung von KI-Outputs durch. (LangChain-Umfrage) Wissensarbeiter verbringen 4,3 Stunden/Woche mit dem Faktencheck von KI-Outputs. (Microsoft 2025)
AgentDesk MCP behebt dieses Problem. Fügen Sie jeder KI-Pipeline in 30 Sekunden ein unabhängiges, adversariales Review hinzu.
Schnellstart
npm (empfohlen)
npx @ezark-publish/agentdesk-mcpClaude Code
claude mcp add agentdesk-mcp -- npx @ezark-publish/agentdesk-mcpClaude Desktop
{
"mcpServers": {
"agentdesk-mcp": {
"command": "npx",
"args": ["-y", "@ezark-publish/agentdesk-mcp"],
"env": { "ANTHROPIC_API_KEY": "sk-ant-..." }
}
}
}HTTP-Transport (Streamable HTTP)
Als HTTP-Server für Fernzugriff, Smithery-Hosting oder Multi-Client-Setups ausführen:
# Start with HTTP transport on port 3100
MCP_HTTP_PORT=3100 npx @ezark-publish/agentdesk-mcp
# Or use the --http flag (defaults to port 3100)
npx @ezark-publish/agentdesk-mcp --httpMCP-Endpunkt: POST http://localhost:3100/mcp
Health-Check: GET http://localhost:3100/health
Installation von GitHub (Alternative)
npm install github:Rih0z/agentdesk-mcpAnforderungen
ANTHROPIC_API_KEYUmgebungsvariable (verwendet Ihren eigenen Schlüssel — BYOK)
Tools
review_output
Adversariales Qualitäts-Review für jeden KI-generierten Output. Ein unabhängiger Reviewer geht davon aus, dass der Autor Fehler gemacht hat und sucht aktiv nach Problemen.
Eingabe:
Parameter | Erforderlich | Beschreibung |
| Ja | Der zu überprüfende KI-generierte Output |
| Nein | Benutzerdefinierte Review-Kriterien |
| Nein | Kategorie: |
| Nein | Reviewer-Modell (Standard: |
Ausgabe:
{
"verdict": "PASS | FAIL | CONDITIONAL_PASS",
"score": 82,
"issues": [
{
"severity": "high",
"category": "accuracy",
"description": "Claim about X is unsupported",
"suggestion": "Add citation or remove claim"
}
],
"checklist": [
{
"item": "Factual accuracy",
"status": "pass",
"evidence": "All statistics match cited sources"
}
],
"summary": "Overall assessment...",
"reviewer_model": "claude-sonnet-4-6"
}review_dual
Duales adversariales Review — zwei unabhängige Reviewer bewerten den Output aus verschiedenen Blickwinkeln, dann kombiniert ein Merge-Agent die Ergebnisse.
Wenn einer der Reviewer ein kritisches Problem findet → ist das zusammengeführte Urteil FAIL
Übernimmt die niedrigere Punktzahl
Kombiniert und dedupliziert alle Probleme
Verwenden Sie dies für kritische Outputs, bei denen Qualität entscheidend ist.
Gleiche Parameter wie review_output.
Funktionsweise
Adversariales Prompting: Der Reviewer wird angewiesen, davon auszugehen, dass Fehler gemacht wurden. Kein Vertrauensvorschuss.
Evidenzbasierte Checkliste: Jeder PASS-Punkt erfordert spezifische Belege. Punkte ohne Belege werden automatisch auf FAIL herabgestuft.
Anti-Gaming-Validierung: Wenn >30 % der Checklistenpunkte keine Belege enthalten, wird das gesamte Review zwangsweise auf FAIL gesetzt, mit einer maximalen Punktzahl von 50.
Strukturierter Output: Urteil + numerische Punktzahl + kategorisierte Probleme + Checkliste (nicht nur "sieht gut aus").
Anwendungsfälle
Code-Review: Prüfung auf Bugs, Sicherheitsprobleme, Performance-Probleme
Inhalts-Review: Überprüfung auf Genauigkeit, Lesbarkeit, SEO, Zielgruppenpassung
Faktische Überprüfung: Validierung von Behauptungen in KI-generierten Texten
Übersetzungsqualität: Überprüfung auf Genauigkeit und Natürlichkeit
Datenextraktion: Überprüfung auf Vollständigkeit und Korrektheit
Jeder KI-Output: Zusammenfassungen, Berichte, Vorschläge, E-Mails usw.
Warum nicht einfach dieselbe KI um ein Review bitten?
Selbst-Reviews haben eine systematische Nachsicht-Verzerrung. Ein LLM, das seinen eigenen Output überprüft, teilt dieselben blinden Flecken, die die Fehler verursacht haben. Untersuchungen zeigen, dass Modelle bei Halluzinationen mit 34 % höherer Wahrscheinlichkeit eine selbstbewusste Sprache verwenden.
AgentDesk verwendet einen separaten Reviewer-Aufruf mit adversarialem Prompting — grundlegend anders als ein Selbst-Review.
Vergleich
Funktion | AgentDesk MCP | Manueller Prompt | Braintrust | DeepEval |
Ein-Tool-Setup | Ja | Nein | Nein | Nein |
Adversariales Review | Ja | DIY | Nein | Nein |
Dualer Reviewer | Ja | DIY | Nein | Nein |
Anti-Gaming-Validierung | Ja | Nein | Nein | Nein |
Kein SDK erforderlich | Ja | Ja | Nein | Nein |
MCP-nativ | Ja | Nein | Nein | Nein |
Einschränkungen
Prompt Injection: Wie bei allen LLM-als-Richter-Systemen könnten adversariale Eingaben versuchen, die Urteile des Reviewers zu manipulieren. Die Anti-Gaming-Validierungsschicht mildert oberflächliches Gaming ab, aber entschlossene adversariale Eingaben bleiben eine Herausforderung. Kombinieren Sie dies bei kritischen Anwendungsfällen mit deterministischer Validierung.
BYOK-Kosten: Jeder
review_output-Aufruf tätigt 1 LLM-API-Aufruf;review_dualtätigt 3. Berücksichtigen Sie dies bei Ihren Pipeline-Kosten.
Gehostete API (separates Produkt)
Für Teams, die eine HTTP-Integration bevorzugen, ist eine gehostete REST-API mit zusätzlichen Funktionen (Agent-Marktplatz, Kontext-Lernen, Workflows) unter agentdesk.usedevtools.com verfügbar.
Entwicklung
git clone https://github.com/Rih0z/agentdesk-mcp.git
cd agentdesk-mcp
npm install
npm test # 35 tests
npm run buildLizenz
MIT
Erstellt von EZARK Consulting | Web-Version
Appeared in Searches
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/Rih0z/agentdesk-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server