MCP Deep Web Research Server

by PedroDnT
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Integrates with Google Search to perform searches, with features for parallel searching, batch operations with rate limiting, and intelligent queuing of search requests.

  • Converts web content to Markdown format with improved formatting, making research results more readable within Claude.

Servidor de investigación web profunda MCP (v0.3.0)

Un servidor de Protocolo de Contexto Modelo (MCP) para investigación web avanzada.

Últimos cambios

  • Se agregó la herramienta visit_page para la extracción directa de contenido de la página web
  • Rendimiento optimizado para trabajar dentro de los límites de tiempo de espera de MCP
    • Parámetros maxDepth y maxBranching predeterminados reducidos
    • Eficiencia de carga de páginas mejorada
    • Se agregaron controles de tiempo de espera durante todo el proceso.
    • Manejo mejorado de errores en tiempos de espera

Este proyecto es una bifurcación de mcp-webresearch de mzxrai , mejorada con funciones adicionales para la investigación en la web profunda. Agradecemos a los creadores originales su labor fundacional.

Incorpore información en tiempo real a Claude con colas de búsqueda inteligentes, extracción de contenido mejorada y capacidades de investigación profunda.

Características

  • Sistema de cola de búsqueda inteligente
    • Operaciones de búsqueda por lotes con limitación de velocidad
    • Gestión de colas con seguimiento del progreso
    • Recuperación de errores y reintentos automáticos
    • Desduplicación de resultados de búsqueda
  • Extracción de contenido mejorada
    • Puntuación de relevancia basada en TF-IDF
    • Análisis de proximidad de palabras clave
    • Ponderación de la sección de contenido
    • Puntuación de legibilidad
    • Análisis mejorado de la estructura HTML
    • Extracción de datos estructurados
    • Mejor limpieza y formato de contenido
  • Características principales
    • Integración de búsqueda de Google
    • Extracción de contenido de páginas web
    • Seguimiento de sesiones de investigación
    • Conversión de Markdown con formato mejorado

Prerrequisitos

Instalación

Instalación mediante herrería

Para instalar Deep Web Research Server para Claude Desktop automáticamente a través de Smithery :

npx -y @smithery/cli install @PedroDnT/mcp-deepwebresearch --client claude

Instalación global (recomendada)

# Install globally using npm npm install -g mcp-deepwebresearch # Or using yarn yarn global add mcp-deepwebresearch # Or using pnpm pnpm add -g mcp-deepwebresearch

Instalación de proyecto local

# Using npm npm install mcp-deepwebresearch # Using yarn yarn add mcp-deepwebresearch # Using pnpm pnpm add mcp-deepwebresearch

Integración de escritorio de Claude

Después de instalar el paquete, agregue esta entrada a su claude_desktop_config.json :

Ventanas

{ "mcpServers": { "deepwebresearch": { "command": "mcp-deepwebresearch", "args": [] } } }

Ubicación: %APPDATA%\Claude\claude_desktop_config.json

macOS

{ "mcpServers": { "deepwebresearch": { "command": "mcp-deepwebresearch", "args": [] } } }

Ubicación: ~/Library/Application Support/Claude/claude_desktop_config.json

Esta configuración permite que Claude Desktop inicie automáticamente el servidor de investigación web MCP cuando sea necesario.

Configuración por primera vez

Después de la instalación, ejecute este comando para instalar las dependencias necesarias del navegador:

npx playwright install chromium

Uso

Simplemente inicia un chat con Claude y envía una propuesta que se beneficie de una investigación web. Si deseas una propuesta prediseñada y personalizada para una investigación web más profunda, puedes usar la propuesta agentic-research que ofrecemos en este paquete. Accede a esa propuesta en Claude Desktop haciendo clic en el icono del clip en la entrada del chat y seleccionando " Choose an integrationdeepwebresearchagentic-research .

Herramientas

  1. deep_research
    • Realiza una investigación exhaustiva con análisis de contenido.
    • Argumentos:
      { topic: string; maxDepth?: number; // default: 2 maxBranching?: number; // default: 3 timeout?: number; // default: 55000 (55 seconds) minRelevanceScore?: number; // default: 0.7 }
    • Devoluciones:
      { findings: { mainTopics: Array<{name: string, importance: number}>; keyInsights: Array<{text: string, confidence: number}>; sources: Array<{url: string, credibilityScore: number}>; }; progress: { completedSteps: number; totalSteps: number; processedUrls: number; }; timing: { started: string; completed?: string; duration?: number; operations?: { parallelSearch?: number; deduplication?: number; topResultsProcessing?: number; remainingResultsProcessing?: number; total?: number; }; }; }
  2. parallel_search
    • Realiza múltiples búsquedas de Google en paralelo con cola inteligente
    • Argumentos: { queries: string[], maxParallel?: number }
    • Nota: maxParallel está limitado a 5 para garantizar un rendimiento confiable
  3. visit_page
    • Visita una página web y extrae su contenido
    • Argumentos: { url: string }
    • Devoluciones:
      { url: string; title: string; content: string; // Markdown formatted content }

Indicaciones

agentic-research

Una guía de investigación que ayuda a Claude a realizar una investigación web exhaustiva. La guía le indica a Claude que:

  • Comience con búsquedas amplias para comprender el panorama temático.
  • Priorizar fuentes confiables y de alta calidad
  • Refinar iterativamente la dirección de la investigación en función de los hallazgos
  • Manténgase informado y permítanos guiar la investigación de forma interactiva.
  • Cite siempre las fuentes con URL

Opciones de configuración

El servidor se puede configurar a través de variables de entorno:

  • MAX_PARALLEL_SEARCHES : Número máximo de búsquedas simultáneas (predeterminado: 5)
  • SEARCH_DELAY_MS : Retraso entre búsquedas en milisegundos (valor predeterminado: 200)
  • MAX_RETRIES : Número de reintentos para solicitudes fallidas (valor predeterminado: 3)
  • TIMEOUT_MS : Tiempo de espera de la solicitud en milisegundos (valor predeterminado: 55000)
  • LOG_LEVEL : Nivel de registro (predeterminado: 'info')

Manejo de errores

Problemas comunes

  1. Limitación de velocidad
    • Síntoma: Error "Demasiadas solicitudes"
    • Solución: Aumente SEARCH_DELAY_MS o disminuya MAX_PARALLEL_SEARCHES
  2. Tiempos de espera de la red
    • Síntoma: Error "Tiempo de espera agotado"
    • Solución: Asegúrese de que las solicitudes se completen dentro del tiempo de espera de MCP de 60 segundos
  3. Problemas con el navegador
    • Síntoma: Error "No se pudo iniciar el navegador"
    • Solución: asegúrese de que Playwright esté instalado correctamente ( npx playwright install )

Depuración

Este software es beta. Si tiene algún problema:

  1. Consulte los registros MCP de Claude Desktop:
    # On macOS tail -n 20 -f ~/Library/Logs/Claude/mcp*.log # On Windows Get-Content -Path "$env:APPDATA\Claude\logs\mcp*.log" -Tail 20 -Wait
  2. Habilitar el registro de depuración:
    export LOG_LEVEL=debug

Desarrollo

Configuración

# Install dependencies pnpm install # Build the project pnpm build # Watch for changes pnpm watch # Run in development mode pnpm dev

Pruebas

# Run all tests pnpm test # Run tests in watch mode pnpm test:watch # Run tests with coverage pnpm test:coverage

Calidad del código

# Run linter pnpm lint # Fix linting issues pnpm lint:fix # Type check pnpm type-check

Contribuyendo

  1. Bifurcar el repositorio
  2. Crea tu rama de funciones ( git checkout -b feature/amazing-feature )
  3. Confirme sus cambios ( git commit -m 'Add some amazing feature' )
  4. Empujar a la rama ( git push origin feature/amazing-feature )
  5. Abrir una solicitud de extracción

Estándares de codificación

  • Siga las mejores prácticas de TypeScript
  • Mantener la cobertura de pruebas por encima del 80%
  • Documentar nuevas funciones y API
  • Actualice CHANGELOG.md para cambios significativos
  • Seguir el versionado semántico

Consideraciones de rendimiento

  • Utilice operaciones por lotes siempre que sea posible
  • Implementar un manejo adecuado de errores y reintentos
  • Considere el uso de memoria con grandes conjuntos de datos
  • Almacenar en caché los resultados cuando sea apropiado
  • Utilice la transmisión para contenido de gran tamaño

Requisitos

  • Node.js >= 18
  • Dramaturgo (instalado automáticamente como dependencia)

Plataformas verificadas

  • [x] macOS
  • [x] Ventanas
  • [ ] Linux

Licencia

Instituto Tecnológico de Massachusetts (MIT)

Créditos

Este proyecto se basa en el excelente trabajo de mcp-webresearch de mzxrai . El código base original sentó las bases para nuestras funciones y capacidades mejoradas.

Autor

qpd-v

-
security - not tested
A
license - permissive license
-
quality - not tested

Un servidor de protocolo de contexto modelo que permite a Claude realizar investigaciones web avanzadas con colas de búsqueda inteligentes, extracción de contenido mejorada y capacidades de investigación profunda.

  1. Latest Changes
    1. Features
      1. Prerequisites
        1. Installation
          1. Installing via Smithery
          2. Global Installation (Recommended)
          3. Local Project Installation
          4. Claude Desktop Integration
          5. First-time Setup
        2. Usage
          1. Tools
          2. Prompts
        3. Configuration Options
          1. Error Handling
            1. Common Issues
            2. Debugging
          2. Development
            1. Setup
            2. Testing
            3. Code Quality
          3. Contributing
            1. Coding Standards
            2. Performance Considerations
          4. Requirements
            1. Verified Platforms
              1. License
                1. Credits
                  1. Author
                    ID: vsfb013k8i