Proyecto de rastreo web MD MCP
Un rastreador web MCP basado en Python ( https://modelcontextprotocol.io/introduction ) para extraer y guardar contenido del sitio web.
Características
Extraer el contenido del sitio web y guardarlo como archivos Markdown
Estructura del sitio web de mapas y enlaces
Procesamiento por lotes de múltiples URL
Directorio de salida configurable
Related MCP server: UseScraper MCP Server
Instalación
Clonar el repositorio:
Instalar dependencias:
Opcional: Configurar variables de entorno:
Producción
El contenido rastreado se guarda en formato Markdown en el directorio de salida especificado.
Configuración
El servidor se puede configurar a través de variables de entorno:
OUTPUT_PATH: Directorio de salida predeterminado para archivos guardadosMAX_CONCURRENT_REQUESTS: Máximo de solicitudes paralelas (predeterminado: 5)REQUEST_TIMEOUT: Tiempo de espera de la solicitud en segundos (predeterminado: 30)
Configuración de Claude
Instalar con FastMCP fastmcp install server.py
o configuraciones personalizadas del usuario para ejecutar con fastmcp directamente
Desarrollo
Desarrollo en vivo
Depurar
Es útil utilizar https://modelcontextprotocol.io/docs/tools/inspector para la depuración.
Ejemplos
Ejemplo 1: Extraer y guardar contenido
Ejemplo 2: Crear un índice de contenido
Contribuyendo
Bifurcar el repositorio
Crear una rama de características (
git checkout -b feature/AmazingFeature)Confirme sus cambios (
git commit -m 'Add some AmazingFeature')Empujar a la rama (
git push origin feature/AmazingFeature)Abrir una solicitud de extracción
Licencia
Distribuido bajo la licencia MIT. Consulte LICENSE para más información.
Requisitos
Python 3.7+
FastMCP (instalación de uv pip fastmcp)
Dependencias enumeradas en requirements.txt