rastreo web del servidor mcp
Conecte su rastreo web con los modelos de lenguaje de IA mediante el Protocolo de Contexto de Modelo (MCP). Con mcp-server-webcrawl , su cliente de IA filtra y analiza el contenido web bajo su supervisión o de forma autónoma. El servidor incluye una interfaz de búsqueda de texto completo con compatibilidad booleana, filtrado de recursos por tipo, estado HTTP y más.
mcp-server-webcrawl proporciona al LLM un menú completo con el que buscar contenido web y funciona con una variedad de rastreadores web:
mcp-server-webcrawl es gratuito y de código abierto, y requiere Claude Desktop y Python (versión 3.10 o superior). Se instala desde la línea de comandos mediante pip install:
Características
- Compatible con Claude Desktop
- Soporte de búsqueda de texto completo
- Filtrar por tipo, estado y más
- Compatible con múltiples rastreadores
- Admite búsqueda avanzada/booleana y de campo
Configuración de MCP
Desde el menú de Claude Desktop, vaya a Archivo > Configuración > Desarrollador. Haga clic en Editar configuración para localizar el archivo de configuración, ábralo en el editor que prefiera y modifique el ejemplo para que refleje la ruta de su datasrc.
Puede configurar más conexiones mcp-server-webcrawl en mcpServers según sea necesario.
Para la configuración paso a paso, consulte las Guías de configuración .
Windows frente a macOS
Windows: comando establecido en "mcp-server-webcrawl"
macOS: comando establecido en ruta absoluta, es decir, el valor de $ que mcp-server-webcrawl
Por ejemplo:
Para encontrar la ruta absoluta del ejecutable mcp-server-webcrawl
en su sistema:
- Abrir terminal
- Ejecutar
which mcp-server-webcrawl
- Copie la ruta completa devuelta y úsela en su archivo de configuración
wget (usando --mirror)
El argumento datasrc debe establecerse en el directorio principal de los espejos.
WARC
El argumento datasrc debe establecerse en el directorio principal de los archivos WARC.
InterroBot
El argumento datasrc debe establecerse en la ruta directa a la base de datos.
Katana
El argumento datasrc debe establecerse en el directorio de los hosts raíz. Katana separa las páginas y los archivos multimedia por host. Se espera y es adecuado usar ./archives/example.com/example.com. Los sitios más complejos expanden los datos de rastreo a los directorios de los hosts de origen.
SiteOne (utilizando Generar sitio web sin conexión )
El argumento datasrc debe establecerse en el directorio principal de los archivos; el archivado debe estar habilitado.
Sintaxis de búsqueda booleana
El motor de consultas admite búsquedas específicas de campo ( field: value
) y expresiones booleanas complejas. El texto completo se admite como una combinación de los campos de URL, contenido y encabezados.
Aunque la interfaz API está diseñada para ser utilizada directamente por el LLM, puede ser útil familiarizarse con la sintaxis de búsqueda. Las búsquedas generadas por el LLM se pueden inspeccionar, pero generalmente se muestran en la interfaz de usuario. Si necesita ver la consulta, expanda el elemento plegable de MCP.
Consultas de ejemplo
Ejemplo de consulta | Descripción |
---|---|
privacidad | coincidencia de palabra clave única de texto completo |
"política de privacidad" | texto completo coincide con la frase exacta |
límite* | El comodín de texto completo coincide con los resultados que comienzan con boundar (límite, límites) |
identificación: 12345 | El campo id coincide con un recurso específico por ID |
URL: ejemplo.com/* | El campo URL coincide con los resultados de la URL que contiene ejemplo.com/ |
tipo: html | El campo de tipo coincide solo con páginas HTML |
estado: 200 | El campo de estado coincide con códigos de estado HTTP específicos (igual a 200) |
estado: >=400 | El campo de estado coincide con un código de estado HTTP específico (mayor o igual a 400) |
contenido: h1 | El campo de contenido coincide con el contenido (cuerpo de la respuesta HTTP, a menudo, pero no siempre HTML) |
encabezados: texto/xml | El campo de encabezados coincide con los encabezados de respuesta HTTP |
privacidad Y política | el texto completo coincide con ambos |
política de privacidad | El texto completo coincide con cualquiera de los dos |
política NO privacidad | El texto completo coincide con políticas que no contienen información sobre privacidad. |
(iniciar sesión O iniciar sesión) Y formulario | texto completo coincide con el texto completo iniciar sesión o iniciar sesión con formulario |
tipo: html Y estado: 200 | El texto completo coincide solo con páginas HTML con éxito HTTP |
Definiciones de búsqueda de campos
La búsqueda por campos proporciona precisión, lo que permite especificar qué columnas del índice de búsqueda filtrar. En lugar de buscar en todo el contenido, se puede restringir la consulta a atributos específicos, como URL, encabezados o el cuerpo del contenido. Este enfoque mejora la eficiencia al buscar atributos o patrones específicos en los datos de rastreo.
Campo | Descripción |
---|---|
identificación | ID de base de datos |
URL | URL del recurso |
tipo | lista enumerada de tipos (ver tabla de tipos) |
estado | Códigos de respuesta HTTP |
encabezados | Encabezados de respuesta HTTP |
contenido | Cuerpo HTTP: HTML, CSS, JS y más |
Tipos de contenido
Los rastreos contienen una gran variedad de tipos de recursos además de las páginas HTML. La búsqueda por campo type:
permite filtrar por grupos amplios de tipos de contenido, lo cual es especialmente útil al filtrar imágenes sin consultas de extensión complejas. Por ejemplo, puede buscar type: html NOT content: login
para encontrar páginas sin "login" o type: img
para analizar recursos de imágenes. La siguiente tabla muestra todos los tipos de contenido admitidos en el sistema de búsqueda.
Tipo | Descripción |
---|---|
html | páginas web |
iframe | iframes |
imagen | imágenes web |
audio | archivos de audio web |
video | archivos de vídeo web |
fuente | archivos de fuentes web |
estilo | Hojas de estilo CSS |
guion | Archivos JavaScript |
rss | Fuentes de sindicación RSS |
texto | contenido de texto sin formato |
Archivos PDF | |
doc | Documentos de MS Word |
otro | Sin categorizar |
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Acorta la distancia entre tu rastreo web y los modelos de lenguaje de IA. Con mcp-server-webcrawl, tu cliente de IA filtra y analiza el contenido web bajo tu supervisión o de forma autónoma, extrayendo información valiosa de tu contenido.
Admite rastreadores WARC, wget, InterroBot, Katana y SiteOne.
Related MCP Servers
- -securityAlicense-qualityCrawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.Last updated -81PythonMIT License
- -securityAlicense-qualityAn MCP server that helps AI assistants access text content from websites that implement bot detection, bridging the gap between what you can see in your browser and what the AI can access.Last updated -1PythonApache 2.0
- -securityFlicense-qualityAn MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.Last updated -Python
- -security-license-qualityAn MCP server that enhances Brave Search results by using Puppeteer to extract full webpage content and explore linked pages, enabling AI assistants to perform comprehensive web research with configurable depth.Last updated -1TypeScript