rastreo web del servidor mcp

Conecte su rastreo web con los modelos de lenguaje de IA mediante el Protocolo de Contexto de Modelo (MCP). Con mcp-server-webcrawl , su cliente de IA filtra y analiza el contenido web bajo su supervisión o de forma autónoma. El servidor incluye una interfaz de búsqueda de texto completo con compatibilidad booleana, filtrado de recursos por tipo, estado HTTP y más.

mcp-server-webcrawl proporciona al LLM un menú completo con el que buscar contenido web y funciona con una variedad de rastreadores web:

mcp-server-webcrawl es gratuito y de código abierto, y requiere Claude Desktop y Python (versión 3.10 o superior). Se instala desde la línea de comandos mediante pip install:

pip install mcp-server-webcrawl

Características

Compatible con Claude Desktop
Soporte de búsqueda de texto completo
Filtrar por tipo, estado y más
Compatible con múltiples rastreadores
Admite búsqueda avanzada/booleana y de campo

Configuración de MCP

Desde el menú de Claude Desktop, vaya a Archivo > Configuración > Desarrollador. Haga clic en Editar configuración para localizar el archivo de configuración, ábralo en el editor que prefiera y modifique el ejemplo para que refleje la ruta de su datasrc.

Puede configurar más conexiones mcp-server-webcrawl en mcpServers según sea necesario.

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

Para la configuración paso a paso, consulte las Guías de configuración .

Windows frente a macOS

Windows: comando establecido en "mcp-server-webcrawl"

macOS: comando establecido en ruta absoluta, es decir, el valor de $ que mcp-server-webcrawl

Por ejemplo:

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

Para encontrar la ruta absoluta del ejecutable mcp-server-webcrawl en su sistema:

Abrir terminal
Ejecutar which mcp-server-webcrawl
Copie la ruta completa devuelta y úsela en su archivo de configuración

wget (usando --mirror)

El argumento datasrc debe establecerse en el directorio principal de los espejos.

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

El argumento datasrc debe establecerse en el directorio principal de los archivos WARC.

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

InterroBot

El argumento datasrc debe establecerse en la ruta directa a la base de datos.

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

Katana

El argumento datasrc debe establecerse en el directorio de los hosts raíz. Katana separa las páginas y los archivos multimedia por host. Se espera y es adecuado usar ./archives/example.com/example.com. Los sitios más complejos expanden los datos de rastreo a los directorios de los hosts de origen.

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne (utilizando Generar sitio web sin conexión )

El argumento datasrc debe establecerse en el directorio principal de los archivos; el archivado debe estar habilitado.

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

Sintaxis de búsqueda booleana

El motor de consultas admite búsquedas específicas de campo ( field: value ) y expresiones booleanas complejas. El texto completo se admite como una combinación de los campos de URL, contenido y encabezados.

Aunque la interfaz API está diseñada para ser utilizada directamente por el LLM, puede ser útil familiarizarse con la sintaxis de búsqueda. Las búsquedas generadas por el LLM se pueden inspeccionar, pero generalmente se muestran en la interfaz de usuario. Si necesita ver la consulta, expanda el elemento plegable de MCP.

Consultas de ejemplo

Ejemplo de consulta	Descripción
privacidad	coincidencia de palabra clave única de texto completo
"política de privacidad"	texto completo coincide con la frase exacta
límite*	El comodín de texto completo coincide con los resultados que comienzan con boundar (límite, límites)
identificación: 12345	El campo id coincide con un recurso específico por ID
URL: ejemplo.com/*	El campo URL coincide con los resultados de la URL que contiene ejemplo.com/
tipo: html	El campo de tipo coincide solo con páginas HTML
estado: 200	El campo de estado coincide con códigos de estado HTTP específicos (igual a 200)
estado: >=400	El campo de estado coincide con un código de estado HTTP específico (mayor o igual a 400)
contenido: h1	El campo de contenido coincide con el contenido (cuerpo de la respuesta HTTP, a menudo, pero no siempre HTML)
encabezados: texto/xml	El campo de encabezados coincide con los encabezados de respuesta HTTP
privacidad Y política	el texto completo coincide con ambos
política de privacidad	El texto completo coincide con cualquiera de los dos
política NO privacidad	El texto completo coincide con políticas que no contienen información sobre privacidad.
(iniciar sesión O iniciar sesión) Y formulario	texto completo coincide con el texto completo iniciar sesión o iniciar sesión con formulario
tipo: html Y estado: 200	El texto completo coincide solo con páginas HTML con éxito HTTP

Definiciones de búsqueda de campos

La búsqueda por campos proporciona precisión, lo que permite especificar qué columnas del índice de búsqueda filtrar. En lugar de buscar en todo el contenido, se puede restringir la consulta a atributos específicos, como URL, encabezados o el cuerpo del contenido. Este enfoque mejora la eficiencia al buscar atributos o patrones específicos en los datos de rastreo.

Campo	Descripción
identificación	ID de base de datos
URL	URL del recurso
tipo	lista enumerada de tipos (ver tabla de tipos)
estado	Códigos de respuesta HTTP
encabezados	Encabezados de respuesta HTTP
contenido	Cuerpo HTTP: HTML, CSS, JS y más

Tipos de contenido

Los rastreos contienen una gran variedad de tipos de recursos además de las páginas HTML. La búsqueda por campo type: permite filtrar por grupos amplios de tipos de contenido, lo cual es especialmente útil al filtrar imágenes sin consultas de extensión complejas. Por ejemplo, puede buscar type: html NOT content: login para encontrar páginas sin "login" o type: img para analizar recursos de imágenes. La siguiente tabla muestra todos los tipos de contenido admitidos en el sistema de búsqueda.

Tipo	Descripción
html	páginas web
iframe	iframes
imagen	imágenes web
audio	archivos de audio web
video	archivos de vídeo web
fuente	archivos de fuentes web
estilo	Hojas de estilo CSS
guion	Archivos JavaScript
rss	Fuentes de sindicación RSS
texto	contenido de texto sin formato
pdf	Archivos PDF
doc	Documentos de MS Word
otro	Sin categorizar

This server cannot be installed

security - not tested

license - not tested

quality - not tested

How are these scores calculated?

local-only server

The server can only run on the client's local machine because it depends on local resources.

Acorta la distancia entre tu rastreo web y los modelos de lenguaje de IA. Con mcp-server-webcrawl, tu cliente de IA filtra y analiza el contenido web bajo tu supervisión o de forma autónoma, extrayendo información valiosa de tu contenido.

Admite rastreadores WARC, wget, InterroBot, Katana y SiteOne.

Related MCP Servers

Crawl4AI MCP Server
weidwonder
-
security
-
license
-
quality
Crawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.
Last updated -
118
MIT License
pure.md MCP serverofficial
puremd
A
security
-
license
A
quality
An MCP server that enables AI clients like Cursor, Windsurf, and Claude Desktop to access web content in markdown format, providing web unblocking and searching capabilities.
Last updated -
2
32
41
API Docs MCP Server
ShotaNagafuchi
-
security
-
license
-
quality
An MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.
Last updated -
crawl4ai-mcp
ritvij14
A
security
-
license
A
quality
An MCP Server for Web scraping and Crawling, built using Crawl4AI
Last updated -
2
25

View all related MCP servers

mcp-server-webcrawl

rastreo web del servidor mcp

Características

Configuración de MCP

Windows frente a macOS

wget (usando --mirror)

WARC

InterroBot

Katana

SiteOne (utilizando Generar sitio web sin conexión )

Sintaxis de búsqueda booleana

Definiciones de búsqueda de campos

Tipos de contenido

Related MCP Servers

Crawl4AI MCP Server

pure.md MCP serverofficial

API Docs MCP Server

crawl4ai-mcp

Appeared in Searches

New MCP Servers

MCP directory API