Skip to main content
Glama

AgentDesk MCP — Состязательная проверка ИИ

npm version npm downloads License: MIT Tests MCP

Контроль качества для ИИ-конвейеров — один инструмент MCP. Работает с Claude Code, Claude Desktop и любым клиентом MCP.

29,5% команд НЕ проводят оценку результатов работы ИИ. (Опрос LangChain) Офисные работники тратят 4,3 часа в неделю на проверку фактов в результатах работы ИИ. (Microsoft 2025)

AgentDesk MCP решает эту проблему. Добавьте независимую состязательную проверку в любой ИИ-конвейер за 30 секунд.

Быстрый старт

npm (рекомендуется)

npx @ezark-publish/agentdesk-mcp

Claude Code

claude mcp add agentdesk-mcp -- npx @ezark-publish/agentdesk-mcp

Claude Desktop

{
  "mcpServers": {
    "agentdesk-mcp": {
      "command": "npx",
      "args": ["-y", "@ezark-publish/agentdesk-mcp"],
      "env": { "ANTHROPIC_API_KEY": "sk-ant-..." }
    }
  }
}

HTTP-транспорт (потоковый HTTP)

Запустите как HTTP-сервер для удаленного доступа, хостинга Smithery или настройки с несколькими клиентами:

# Start with HTTP transport on port 3100
MCP_HTTP_PORT=3100 npx @ezark-publish/agentdesk-mcp

# Or use the --http flag (defaults to port 3100)
npx @ezark-publish/agentdesk-mcp --http

MCP-эндпоинт: POST http://localhost:3100/mcp Проверка работоспособности: GET http://localhost:3100/health

Установка из GitHub (альтернатива)

npm install github:Rih0z/agentdesk-mcp

Требования

  • Переменная окружения ANTHROPIC_API_KEY (использует ваш собственный ключ — BYOK)

Инструменты

review_output

Состязательная проверка качества любого результата, созданного ИИ. Независимый рецензент исходит из того, что автор допустил ошибки, и активно ищет проблемы.

Входные данные:

Параметр

Обязательный

Описание

output

Да

Результат работы ИИ для проверки

criteria

Нет

Пользовательские критерии проверки

review_type

Нет

Категория: code, content, factual, translation и т. д.

model

Нет

Модель рецензента (по умолчанию: claude-sonnet-4-6)

Выходные данные:

{
  "verdict": "PASS | FAIL | CONDITIONAL_PASS",
  "score": 82,
  "issues": [
    {
      "severity": "high",
      "category": "accuracy",
      "description": "Claim about X is unsupported",
      "suggestion": "Add citation or remove claim"
    }
  ],
  "checklist": [
    {
      "item": "Factual accuracy",
      "status": "pass",
      "evidence": "All statistics match cited sources"
    }
  ],
  "summary": "Overall assessment...",
  "reviewer_model": "claude-sonnet-4-6"
}

review_dual

Двойная состязательная проверка — два независимых рецензента оценивают результат с разных сторон, затем агент слияния объединяет выводы.

  • Если хотя бы один рецензент находит критическую проблему → объединенный вердикт — FAIL (НЕУДАЧА)

  • Берется более низкая оценка

  • Объединяет и удаляет дубликаты всех проблем

Используйте для критически важных результатов, где качество имеет решающее значение.

Те же параметры, что и у review_output.

Как это работает

  1. Состязательный промптинг: Рецензенту дается указание исходить из того, что были допущены ошибки. Никакой презумпции невиновности.

  2. Контрольный список на основе доказательств: Каждый пункт PASS требует конкретных доказательств. Пункты без доказательств автоматически понижаются до FAIL.

  3. Валидация против манипуляций: Если более 30% пунктов контрольного списка не имеют доказательств, вся проверка принудительно переводится в статус FAIL с ограничением оценки в 50 баллов.

  4. Структурированный вывод: Вердикт + числовая оценка + категоризированные проблемы + контрольный список (а не просто «выглядит хорошо»).

Варианты использования

  • Проверка кода: Поиск ошибок, проблем безопасности, проблем с производительностью

  • Проверка контента: Проверка точности, читабельности, SEO, соответствия аудитории

  • Проверка фактов: Подтверждение утверждений в тексте, созданном ИИ

  • Качество перевода: Проверка точности и естественности

  • Извлечение данных: Проверка полноты и правильности

  • Любой результат ИИ: Резюме, отчеты, предложения, электронные письма и т. д.

Почему бы просто не попросить тот же ИИ проверить результат?

Самопроверка имеет систематическую предвзятость снисходительности. LLM, проверяющая свой собственный результат, разделяет те же «слепые зоны», которые привели к ошибкам. Исследования показывают, что модели на 34% чаще используют уверенный тон при галлюцинациях.

AgentDesk использует отдельный вызов рецензента с состязательным промптингом — это фундаментально отличается от самопроверки.

Сравнение

Функция

AgentDesk MCP

Ручной промпт

Braintrust

DeepEval

Настройка одним инструментом

Да

Нет

Нет

Нет

Состязательная проверка

Да

DIY

Нет

Нет

Двойной рецензент

Да

DIY

Нет

Нет

Валидация против манипуляций

Да

Нет

Нет

Нет

SDK не требуется

Да

Да

Нет

Нет

Нативный MCP

Да

Нет

Нет

Нет

Ограничения

  • Промпт-инъекции: Как и во всех системах «LLM как судья», состязательные входные данные могут попытаться манипулировать вердиктами рецензента. Уровень валидации против манипуляций смягчает поверхностные попытки, но целенаправленные состязательные входные данные остаются проблемой. Для критически важных случаев используйте в сочетании с детерминированной валидацией.

  • Стоимость BYOK: Каждый вызов review_output делает 1 вызов API LLM; review_dual делает 3. Учитывайте это в расходах вашего конвейера.

Хостинговый API (отдельный продукт)

Для команд, предпочитающих HTTP-интеграцию, доступен хостинговый REST API с дополнительными функциями (маркетплейс агентов, контекстное обучение, рабочие процессы) на сайте agentdesk.usedevtools.com.

Разработка

git clone https://github.com/Rih0z/agentdesk-mcp.git
cd agentdesk-mcp
npm install
npm test        # 35 tests
npm run build

Лицензия

MIT


Создано EZARK Consulting | Веб-версия

Install Server
A
security – no known vulnerabilities
A
license - permissive license
B
quality - B tier

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/Rih0z/agentdesk-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server