AgentDesk MCP — Состязательная проверка ИИ

npm version npm downloads License: MIT Tests MCP

Контроль качества для ИИ-конвейеров — один инструмент MCP. Работает с Claude Code, Claude Desktop и любым клиентом MCP.

29,5% команд НЕ проводят оценку результатов работы ИИ. (Опрос LangChain) Офисные работники тратят 4,3 часа в неделю на проверку фактов в результатах работы ИИ. (Microsoft 2025)

AgentDesk MCP решает эту проблему. Добавьте независимую состязательную проверку в любой ИИ-конвейер за 30 секунд.

Быстрый старт

npm (рекомендуется)

npx @ezark-publish/agentdesk-mcp

Claude Code

claude mcp add agentdesk-mcp -- npx @ezark-publish/agentdesk-mcp

Claude Desktop

{
  "mcpServers": {
    "agentdesk-mcp": {
      "command": "npx",
      "args": ["-y", "@ezark-publish/agentdesk-mcp"],
      "env": { "ANTHROPIC_API_KEY": "sk-ant-..." }
    }
  }
}

HTTP-транспорт (потоковый HTTP)

Запустите как HTTP-сервер для удаленного доступа, хостинга Smithery или настройки с несколькими клиентами:

# Start with HTTP transport on port 3100
MCP_HTTP_PORT=3100 npx @ezark-publish/agentdesk-mcp

# Or use the --http flag (defaults to port 3100)
npx @ezark-publish/agentdesk-mcp --http

MCP-эндпоинт: POST http://localhost:3100/mcp Проверка работоспособности: GET http://localhost:3100/health

Установка из GitHub (альтернатива)

npm install github:Rih0z/agentdesk-mcp

Требования

Переменная окружения ANTHROPIC_API_KEY (использует ваш собственный ключ — BYOK)

Инструменты

`review_output`

Состязательная проверка качества любого результата, созданного ИИ. Независимый рецензент исходит из того, что автор допустил ошибки, и активно ищет проблемы.

Входные данные:

Параметр	Обязательный	Описание
`output`	Да	Результат работы ИИ для проверки
`criteria`	Нет	Пользовательские критерии проверки
`review_type`	Нет	Категория: `code`, `content`, `factual`, `translation` и т. д.
`model`	Нет	Модель рецензента (по умолчанию: `claude-sonnet-4-6`)

Выходные данные:

{
  "verdict": "PASS | FAIL | CONDITIONAL_PASS",
  "score": 82,
  "issues": [
    {
      "severity": "high",
      "category": "accuracy",
      "description": "Claim about X is unsupported",
      "suggestion": "Add citation or remove claim"
    }
  ],
  "checklist": [
    {
      "item": "Factual accuracy",
      "status": "pass",
      "evidence": "All statistics match cited sources"
    }
  ],
  "summary": "Overall assessment...",
  "reviewer_model": "claude-sonnet-4-6"
}

`review_dual`

Двойная состязательная проверка — два независимых рецензента оценивают результат с разных сторон, затем агент слияния объединяет выводы.

Если хотя бы один рецензент находит критическую проблему → объединенный вердикт — FAIL (НЕУДАЧА)
Берется более низкая оценка
Объединяет и удаляет дубликаты всех проблем

Используйте для критически важных результатов, где качество имеет решающее значение.

Те же параметры, что и у review_output.

Как это работает

Состязательный промптинг: Рецензенту дается указание исходить из того, что были допущены ошибки. Никакой презумпции невиновности.
Контрольный список на основе доказательств: Каждый пункт PASS требует конкретных доказательств. Пункты без доказательств автоматически понижаются до FAIL.
Валидация против манипуляций: Если более 30% пунктов контрольного списка не имеют доказательств, вся проверка принудительно переводится в статус FAIL с ограничением оценки в 50 баллов.
Структурированный вывод: Вердикт + числовая оценка + категоризированные проблемы + контрольный список (а не просто «выглядит хорошо»).

Варианты использования

Проверка кода: Поиск ошибок, проблем безопасности, проблем с производительностью
Проверка контента: Проверка точности, читабельности, SEO, соответствия аудитории
Проверка фактов: Подтверждение утверждений в тексте, созданном ИИ
Качество перевода: Проверка точности и естественности
Извлечение данных: Проверка полноты и правильности
Любой результат ИИ: Резюме, отчеты, предложения, электронные письма и т. д.

Почему бы просто не попросить тот же ИИ проверить результат?

Самопроверка имеет систематическую предвзятость снисходительности. LLM, проверяющая свой собственный результат, разделяет те же «слепые зоны», которые привели к ошибкам. Исследования показывают, что модели на 34% чаще используют уверенный тон при галлюцинациях.

AgentDesk использует отдельный вызов рецензента с состязательным промптингом — это фундаментально отличается от самопроверки.

Сравнение

Функция	AgentDesk MCP	Ручной промпт	Braintrust	DeepEval
Настройка одним инструментом	Да	Нет	Нет	Нет
Состязательная проверка	Да	DIY	Нет	Нет
Двойной рецензент	Да	DIY	Нет	Нет
Валидация против манипуляций	Да	Нет	Нет	Нет
SDK не требуется	Да	Да	Нет	Нет
Нативный MCP	Да	Нет	Нет	Нет

Ограничения

Промпт-инъекции: Как и во всех системах «LLM как судья», состязательные входные данные могут попытаться манипулировать вердиктами рецензента. Уровень валидации против манипуляций смягчает поверхностные попытки, но целенаправленные состязательные входные данные остаются проблемой. Для критически важных случаев используйте в сочетании с детерминированной валидацией.
Стоимость BYOK: Каждый вызов review_output делает 1 вызов API LLM; review_dual делает 3. Учитывайте это в расходах вашего конвейера.

Хостинговый API (отдельный продукт)

Для команд, предпочитающих HTTP-интеграцию, доступен хостинговый REST API с дополнительными функциями (маркетплейс агентов, контекстное обучение, рабочие процессы) на сайте agentdesk.usedevtools.com.

Разработка

git clone https://github.com/Rih0z/agentdesk-mcp.git
cd agentdesk-mcp
npm install
npm test        # 35 tests
npm run build

Лицензия

MIT

Создано EZARK Consulting | Веб-версия

agentdesk-mcp