mcp-server-webcrawl

by pragmar
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Enables browsing and analyzing web content crawled by Katana, with support for accessing and searching through cached text files.

  • Requires Python 3.10 or newer to run, with installation via pip package manager.

rastreo web del servidor mcp

Conecte su rastreo web con los modelos de lenguaje de IA mediante el Protocolo de Contexto de Modelo (MCP). Con mcp-server-webcrawl , su cliente de IA filtra y analiza el contenido web bajo su supervisión o de forma autónoma. El servidor incluye una interfaz de búsqueda de texto completo con compatibilidad booleana, filtrado de recursos por tipo, estado HTTP y más.

mcp-server-webcrawl proporciona al LLM un menú completo con el que buscar contenido web y funciona con una variedad de rastreadores web:

mcp-server-webcrawl es gratuito y de código abierto, y requiere Claude Desktop y Python (versión 3.10 o superior). Se instala desde la línea de comandos mediante pip install:

pip install mcp_server_webcrawl

Características

  • Compatible con Claude Desktop
  • Soporte de búsqueda de texto completo
  • Filtrar por tipo, estado y más
  • Compatible con múltiples rastreadores
  • Configuración rápida de MCP
  • Próximamente soporte para ChatGPT

Configuración de MCP

Desde el menú de Claude Desktop, vaya a Archivo > Configuración > Desarrollador. Haga clic en Editar configuración para localizar el archivo de configuración, ábralo en el editor que prefiera y modifique el ejemplo para que refleje la ruta de su datasrc.

Puede configurar más conexiones mcp-server-webcrawl en mcpServers según sea necesario.

{ "mcpServers": { "webcrawl": { "command": "mcp-server-webcrawl", "args": [varies by crawler, see below] } } }

wget (usando --mirror)

El argumento datasrc debe establecerse en el directorio principal de los espejos.

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

El argumento datasrc debe establecerse en el directorio principal de los archivos WARC.

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

InterroBot

El argumento datasrc debe establecerse en la ruta directa a la base de datos.

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

Katana

El argumento datasrc debe establecerse en el directorio principal de los archivos de caché de texto.

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne (usando archivado)

El argumento datasrc debe establecerse en el directorio principal de los archivos; el archivado debe estar habilitado.

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]
-
security - not tested
F
license - not found
-
quality - not tested

Acorta la distancia entre tu rastreo web y los modelos de lenguaje de IA. Con mcp-server-webcrawl, tu cliente de IA filtra y analiza el contenido web bajo tu supervisión o de forma autónoma, extrayendo información valiosa de tu contenido.

Admite rastreadores WARC, wget, InterroBot, Katana y SiteOne.

  1. Features
    1. MCP Configuration
      1. wget (using --mirror)
      2. WARC
      3. InterroBot
      4. Katana
      5. SiteOne (using archiving)
    ID: 6roqjljpg8