Proyecto de rastreo web MD MCP
Un rastreador web MCP basado en Python ( https://modelcontextprotocol.io/introduction ) para extraer y guardar contenido del sitio web.
Características
Extraer el contenido del sitio web y guardarlo como archivos Markdown
Estructura del sitio web de mapas y enlaces
Procesamiento por lotes de múltiples URL
Directorio de salida configurable
Related MCP server: UseScraper MCP Server
Instalación
Clonar el repositorio:
git clone https://github.com/yourusername/webcrawler.git
cd webcrawlerInstalar dependencias:
pip install -r requirements.txtOpcional: Configurar variables de entorno:
export OUTPUT_PATH=./output # Set your preferred output directoryProducción
El contenido rastreado se guarda en formato Markdown en el directorio de salida especificado.
Configuración
El servidor se puede configurar a través de variables de entorno:
OUTPUT_PATH: Directorio de salida predeterminado para archivos guardadosMAX_CONCURRENT_REQUESTS: Máximo de solicitudes paralelas (predeterminado: 5)REQUEST_TIMEOUT: Tiempo de espera de la solicitud en segundos (predeterminado: 30)
Configuración de Claude
Instalar con FastMCP fastmcp install server.py
o configuraciones personalizadas del usuario para ejecutar con fastmcp directamente
"Crawl Server": {
"command": "fastmcp",
"args": [
"run",
"/Users/mm22/Dev_Projekte/servers-main/src/Webcrawler/server.py"
],
"env": {
"OUTPUT_PATH": "/Users/user/Webcrawl"
}Desarrollo
Desarrollo en vivo
fastmcp dev server.py --with-editable .Depurar
Es útil utilizar https://modelcontextprotocol.io/docs/tools/inspector para la depuración.
Ejemplos
Ejemplo 1: Extraer y guardar contenido
mcp call extract_content --url "https://example.com" --output_path "example.md"Ejemplo 2: Crear un índice de contenido
mcp call scan_linked_content --url "https://example.com" | \
mcp call create_index --content_map - --output_path "index.md"Contribuyendo
Bifurcar el repositorio
Crear una rama de características (
git checkout -b feature/AmazingFeature)Confirme sus cambios (
git commit -m 'Add some AmazingFeature')Empujar a la rama (
git push origin feature/AmazingFeature)Abrir una solicitud de extracción
Licencia
Distribuido bajo la licencia MIT. Consulte LICENSE para más información.
Requisitos
Python 3.7+
FastMCP (instalación de uv pip fastmcp)
Dependencias enumeradas en requirements.txt
This server cannot be installed
Resources
Looking for Admin?
Admins can modify the Dockerfile, update the server description, and track usage metrics. If you are the server author, to access the admin panel.