Skip to main content
Glama

MD Webcrawl MCP

by jmh108

Proyecto de rastreo web MD MCP

Un rastreador web MCP basado en Python ( https://modelcontextprotocol.io/introduction ) para extraer y guardar contenido del sitio web.

Características

  • Extraer el contenido del sitio web y guardarlo como archivos Markdown
  • Estructura del sitio web de mapas y enlaces
  • Procesamiento por lotes de múltiples URL
  • Directorio de salida configurable

Instalación

  1. Clonar el repositorio:
git clone https://github.com/yourusername/webcrawler.git cd webcrawler
  1. Instalar dependencias:
pip install -r requirements.txt
  1. Opcional: Configurar variables de entorno:
export OUTPUT_PATH=./output # Set your preferred output directory

Producción

El contenido rastreado se guarda en formato Markdown en el directorio de salida especificado.

Configuración

El servidor se puede configurar a través de variables de entorno:

  • OUTPUT_PATH : Directorio de salida predeterminado para archivos guardados
  • MAX_CONCURRENT_REQUESTS : Máximo de solicitudes paralelas (predeterminado: 5)
  • REQUEST_TIMEOUT : Tiempo de espera de la solicitud en segundos (predeterminado: 30)

Configuración de Claude

Instalar con FastMCP fastmcp install server.py

o configuraciones personalizadas del usuario para ejecutar con fastmcp directamente

"Crawl Server": { "command": "fastmcp", "args": [ "run", "/Users/mm22/Dev_Projekte/servers-main/src/Webcrawler/server.py" ], "env": { "OUTPUT_PATH": "/Users/user/Webcrawl" }

Desarrollo

Desarrollo en vivo

fastmcp dev server.py --with-editable .

Depurar

Es útil utilizar https://modelcontextprotocol.io/docs/tools/inspector para la depuración.

Ejemplos

Ejemplo 1: Extraer y guardar contenido

mcp call extract_content --url "https://example.com" --output_path "example.md"

Ejemplo 2: Crear un índice de contenido

mcp call scan_linked_content --url "https://example.com" | \ mcp call create_index --content_map - --output_path "index.md"

Contribuyendo

  1. Bifurcar el repositorio
  2. Crear una rama de características ( git checkout -b feature/AmazingFeature )
  3. Confirme sus cambios ( git commit -m 'Add some AmazingFeature' )
  4. Empujar a la rama ( git push origin feature/AmazingFeature )
  5. Abrir una solicitud de extracción

Licencia

Distribuido bajo la licencia MIT. Consulte LICENSE para más información.

Requisitos

  • Python 3.7+
  • FastMCP (instalación de uv pip fastmcp)
  • Dependencias enumeradas en requirements.txt
-
security - not tested
A
license - permissive license
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Un servidor MCP basado en Python que rastrea sitios web para extraer y guardar contenido como archivos Markdown, con funciones para mapear la estructura y los enlaces del sitio web.

  1. Características
    1. Instalación
      1. Producción
        1. Configuración
          1. Configuración de Claude
            1. Desarrollo
              1. Desarrollo en vivo
              2. Depurar
            2. Ejemplos
              1. Ejemplo 1: Extraer y guardar contenido
              2. Ejemplo 2: Crear un índice de contenido
            3. Contribuyendo
              1. Licencia
                1. Requisitos

                  Related MCP Servers

                  • A
                    security
                    A
                    license
                    A
                    quality
                    A powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.
                    Last updated -
                    4
                    146
                    12
                    TypeScript
                    MIT License
                    • Apple
                    • Linux
                  • A
                    security
                    A
                    license
                    A
                    quality
                    An MCP server that enables users to download webpages as markdown files using r.jina.ai service, with features for configurable download directories and automatic date-stamped filenames.
                    Last updated -
                    5
                    2
                    25
                    JavaScript
                    MIT License
                    • Linux
                    • Apple
                  • -
                    security
                    A
                    license
                    -
                    quality
                    A Python implementation of an MCP server that extracts webpage content, removes ads and non-essential elements, and transforms it into clean, LLM-optimized Markdown.
                    Last updated -
                    1
                    Python
                    MIT License
                    • Linux
                    • Apple
                  • -
                    security
                    F
                    license
                    -
                    quality
                    An MCP server that extracts meaningful content from websites and converts HTML to high-quality Markdown, using Mozilla's Readability engine.
                    Last updated -
                    11,993
                    2
                    JavaScript

                  View all related MCP servers

                  MCP directory API

                  We provide all the information about MCP servers via our MCP API.

                  curl -X GET 'https://glama.ai/api/mcp/v1/servers/jmh108/md-webcrawl-mcp'

                  If you have feedback or need assistance with the MCP directory API, please join our Discord server