MD Webcrawl MCP

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Allows for cloning the repository from GitHub as part of the installation process

  • Extracts website content and saves it in markdown format, enabling structured documentation from crawled websites

Proyecto de rastreo web MD MCP

Un rastreador web MCP basado en Python ( https://modelcontextprotocol.io/introduction ) para extraer y guardar contenido del sitio web.

Características

  • Extraer el contenido del sitio web y guardarlo como archivos Markdown
  • Estructura del sitio web de mapas y enlaces
  • Procesamiento por lotes de múltiples URL
  • Directorio de salida configurable

Instalación

  1. Clonar el repositorio:
git clone https://github.com/yourusername/webcrawler.git cd webcrawler
  1. Instalar dependencias:
pip install -r requirements.txt
  1. Opcional: Configurar variables de entorno:
export OUTPUT_PATH=./output # Set your preferred output directory

Producción

El contenido rastreado se guarda en formato Markdown en el directorio de salida especificado.

Configuración

El servidor se puede configurar a través de variables de entorno:

  • OUTPUT_PATH : Directorio de salida predeterminado para archivos guardados
  • MAX_CONCURRENT_REQUESTS : Máximo de solicitudes paralelas (predeterminado: 5)
  • REQUEST_TIMEOUT : Tiempo de espera de la solicitud en segundos (predeterminado: 30)

Configuración de Claude

Instalar con FastMCP fastmcp install server.py

o configuraciones personalizadas del usuario para ejecutar con fastmcp directamente

"Crawl Server": { "command": "fastmcp", "args": [ "run", "/Users/mm22/Dev_Projekte/servers-main/src/Webcrawler/server.py" ], "env": { "OUTPUT_PATH": "/Users/user/Webcrawl" }

Desarrollo

Desarrollo en vivo

fastmcp dev server.py --with-editable .

Depurar

Es útil utilizar https://modelcontextprotocol.io/docs/tools/inspector para la depuración.

Ejemplos

Ejemplo 1: Extraer y guardar contenido

mcp call extract_content --url "https://example.com" --output_path "example.md"

Ejemplo 2: Crear un índice de contenido

mcp call scan_linked_content --url "https://example.com" | \ mcp call create_index --content_map - --output_path "index.md"

Contribuyendo

  1. Bifurcar el repositorio
  2. Crear una rama de características ( git checkout -b feature/AmazingFeature )
  3. Confirme sus cambios ( git commit -m 'Add some AmazingFeature' )
  4. Empujar a la rama ( git push origin feature/AmazingFeature )
  5. Abrir una solicitud de extracción

Licencia

Distribuido bajo la licencia MIT. Consulte LICENSE para más información.

Requisitos

  • Python 3.7+
  • FastMCP (instalación de uv pip fastmcp)
  • Dependencias enumeradas en requirements.txt
-
security - not tested
A
license - permissive license
-
quality - not tested

Un servidor MCP basado en Python que rastrea sitios web para extraer y guardar contenido como archivos Markdown, con funciones para mapear la estructura y los enlaces del sitio web.

  1. Features
    1. Installation
      1. Output
        1. Configuration
          1. Claude Set-Up
            1. Development
              1. Live Development
              2. Debug
            2. Examples
              1. Example 1: Extract and Save Content
              2. Example 2: Create Content Index
            3. Contributing
              1. License
                1. Requirements
                  ID: saglkval3f