Proyecto de rastreo web MD MCP
Un rastreador web MCP basado en Python ( https://modelcontextprotocol.io/introduction ) para extraer y guardar contenido del sitio web.
Características
- Extraer el contenido del sitio web y guardarlo como archivos Markdown
- Estructura del sitio web de mapas y enlaces
- Procesamiento por lotes de múltiples URL
- Directorio de salida configurable
Instalación
- Clonar el repositorio:
- Instalar dependencias:
- Opcional: Configurar variables de entorno:
Producción
El contenido rastreado se guarda en formato Markdown en el directorio de salida especificado.
Configuración
El servidor se puede configurar a través de variables de entorno:
OUTPUT_PATH
: Directorio de salida predeterminado para archivos guardadosMAX_CONCURRENT_REQUESTS
: Máximo de solicitudes paralelas (predeterminado: 5)REQUEST_TIMEOUT
: Tiempo de espera de la solicitud en segundos (predeterminado: 30)
Configuración de Claude
Instalar con FastMCP fastmcp install server.py
o configuraciones personalizadas del usuario para ejecutar con fastmcp directamente
Desarrollo
Desarrollo en vivo
Depurar
Es útil utilizar https://modelcontextprotocol.io/docs/tools/inspector para la depuración.
Ejemplos
Ejemplo 1: Extraer y guardar contenido
Ejemplo 2: Crear un índice de contenido
Contribuyendo
- Bifurcar el repositorio
- Crear una rama de características (
git checkout -b feature/AmazingFeature
) - Confirme sus cambios (
git commit -m 'Add some AmazingFeature'
) - Empujar a la rama (
git push origin feature/AmazingFeature
) - Abrir una solicitud de extracción
Licencia
Distribuido bajo la licencia MIT. Consulte LICENSE
para más información.
Requisitos
- Python 3.7+
- FastMCP (instalación de uv pip fastmcp)
- Dependencias enumeradas en requirements.txt
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Un servidor MCP basado en Python que rastrea sitios web para extraer y guardar contenido como archivos Markdown, con funciones para mapear la estructura y los enlaces del sitio web.
- Características
- Instalación
- Producción
- Configuración
- Configuración de Claude
- Desarrollo
- Ejemplos
- Contribuyendo
- Licencia
- Requisitos
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityA powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.Last updated -414612TypeScriptMIT License
- AsecurityAlicenseAqualityAn MCP server that enables users to download webpages as markdown files using r.jina.ai service, with features for configurable download directories and automatic date-stamped filenames.Last updated -5225JavaScriptMIT License
- -securityAlicense-qualityA Python implementation of an MCP server that extracts webpage content, removes ads and non-essential elements, and transforms it into clean, LLM-optimized Markdown.Last updated -1PythonMIT License
- -securityFlicense-qualityAn MCP server that extracts meaningful content from websites and converts HTML to high-quality Markdown, using Mozilla's Readability engine.Last updated -11,9932JavaScript