Docs Fetch MCP Server

Integrations

  • Uses Axios for HTTP requests to fetch web content as part of the server's dual-strategy approach for content extraction

  • Leverages Puppeteer as a fallback for handling complex web pages when simpler requests fail, enabling thorough web content extraction

Servidor MCP de obtención de documentos

Un servidor de Protocolo de Contexto de Modelo (MCP) para obtener contenido web con capacidades de exploración recursiva. Este servidor permite a los LLM explorar de forma autónoma páginas web y documentación para aprender sobre temas específicos.

Descripción general

El servidor MCP Docs Fetch ofrece a los LLM una forma sencilla pero eficaz de recuperar y explorar contenido web. Permite:

  • Obtener contenido limpio y legible de cualquier página web
  • Exploración recursiva de páginas vinculadas hasta una profundidad especificada
  • Recorrido de enlaces del mismo dominio para recopilar información completa
  • Filtrado inteligente de enlaces de navegación para centrarse en páginas con mucho contenido

Esta herramienta es particularmente útil cuando los usuarios desean que un LLM aprenda sobre un tema específico explorando documentación o contenido web.

Características

  • Extracción de contenido : extrae de forma limpia el contenido principal de las páginas web, eliminando distracciones como navegación, anuncios y elementos irrelevantes.
  • Análisis de enlaces : identifica y extrae enlaces de la página, evaluando su relevancia
  • Exploración recursiva : sigue enlaces a contenido relacionado dentro del mismo dominio, hasta una profundidad especificada
  • Procesamiento paralelo : rastrea contenido de manera eficiente con solicitudes simultáneas y manejo adecuado de errores
  • Manejo robusto de errores : maneja con elegancia problemas de red, tiempos de espera y páginas malformadas.
  • Enfoque de doble estrategia : utiliza primero solicitudes rápidas de Axios y, como alternativa, Puppetteer para páginas más complejas.
  • Prevención de tiempo de espera : implementa el manejo de tiempo de espera global para garantizar un funcionamiento confiable dentro de los límites de tiempo de MCP
  • Resultados parciales : devuelve el contenido disponible incluso cuando algunas páginas no se cargan por completo

Uso

El servidor expone una única herramienta MCP:

fetch_doc_content

Obtiene contenido de páginas web con la capacidad de explorar páginas vinculadas hasta una profundidad específica.

Parámetros:

  • url (cadena, obligatoria): URL de la página web que se va a buscar
  • depth (número, opcional, predeterminado: 1): profundidad máxima de exploración de directorios/enlaces (1-5)

Devoluciones:

{ "rootUrl": "https://example.com/docs", "explorationDepth": 2, "pagesExplored": 5, "content": [ { "url": "https://example.com/docs", "title": "Documentation", "content": "Main page content...", "links": [ { "url": "https://example.com/docs/topic1", "text": "Topic 1" }, ... ] }, ... ] }

Instalación

  1. Clonar este repositorio:
git clone https://github.com/wolfyy970/docs-fetch-mcp.git cd docs-fetch-mcp
  1. Instalar dependencias:
npm install
  1. Construir el proyecto:
npm run build
  1. Configure los ajustes de MCP en su cliente Claude:
{ "mcpServers": { "docs-fetch": { "command": "node", "args": [ "/path/to/docs-fetch-mcp/build/index.js" ], "env": { "MCP_TRANSPORT": "pipe" } } } }

Dependencias

  • @modelcontextprotocol/sdk : SDK del servidor MCP
  • puppeteer : Navegador sin cabeza para la interacción con páginas web
  • axios : cliente HTTP para realizar solicitudes

Desarrollo

Para ejecutar el servidor en modo de desarrollo:

npm run dev

Licencia

Instituto Tecnológico de Massachusetts (MIT)

-
security - not tested
A
license - permissive license
-
quality - not tested

Permite a los LLM recuperar y explorar contenido web de forma autónoma mediante la búsqueda de páginas y el seguimiento recursivo de enlaces hasta una profundidad específica, lo que resulta especialmente útil para aprender sobre temas a partir de la documentación.

  1. Overview
    1. Features
      1. Usage
        1. fetch_doc_content
      2. Installation
        1. Dependencies
          1. Development
            1. License
              ID: dbk5b3oyjt