Skip to main content
Glama

mcp-server-webcrawl

by pragmar

rastreo web del servidor mcp

Conecte su rastreo web con los modelos de lenguaje de IA mediante el Protocolo de Contexto de Modelo (MCP). Con mcp-server-webcrawl , su cliente de IA filtra y analiza el contenido web bajo su supervisión o de forma autónoma. El servidor incluye una interfaz de búsqueda de texto completo con compatibilidad booleana, filtrado de recursos por tipo, estado HTTP y más.

mcp-server-webcrawl proporciona al LLM un menú completo con el que buscar contenido web y funciona con una variedad de rastreadores web:

mcp-server-webcrawl es gratuito y de código abierto, y requiere Claude Desktop y Python (versión 3.10 o superior). Se instala desde la línea de comandos mediante pip install:

pip install mcp-server-webcrawl

Características

  • Compatible con Claude Desktop
  • Soporte de búsqueda de texto completo
  • Filtrar por tipo, estado y más
  • Compatible con múltiples rastreadores
  • Admite búsqueda avanzada/booleana y de campo

Configuración de MCP

Desde el menú de Claude Desktop, vaya a Archivo > Configuración > Desarrollador. Haga clic en Editar configuración para localizar el archivo de configuración, ábralo en el editor que prefiera y modifique el ejemplo para que refleje la ruta de su datasrc.

Puede configurar más conexiones mcp-server-webcrawl en mcpServers según sea necesario.

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

Para la configuración paso a paso, consulte las Guías de configuración .

Windows frente a macOS

Windows: comando establecido en "mcp-server-webcrawl"

macOS: comando establecido en ruta absoluta, es decir, el valor de $ que mcp-server-webcrawl

Por ejemplo:

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

Para encontrar la ruta absoluta del ejecutable mcp-server-webcrawl en su sistema:

  1. Abrir terminal
  2. Ejecutar which mcp-server-webcrawl
  3. Copie la ruta completa devuelta y úsela en su archivo de configuración

wget (usando --mirror)

El argumento datasrc debe establecerse en el directorio principal de los espejos.

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

El argumento datasrc debe establecerse en el directorio principal de los archivos WARC.

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

InterroBot

El argumento datasrc debe establecerse en la ruta directa a la base de datos.

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

Katana

El argumento datasrc debe establecerse en el directorio de los hosts raíz. Katana separa las páginas y los archivos multimedia por host. Se espera y es adecuado usar ./archives/example.com/example.com. Los sitios más complejos expanden los datos de rastreo a los directorios de los hosts de origen.

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne (utilizando Generar sitio web sin conexión )

El argumento datasrc debe establecerse en el directorio principal de los archivos; el archivado debe estar habilitado.

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

Sintaxis de búsqueda booleana

El motor de consultas admite búsquedas específicas de campo ( field: value ) y expresiones booleanas complejas. El texto completo se admite como una combinación de los campos de URL, contenido y encabezados.

Aunque la interfaz API está diseñada para ser utilizada directamente por el LLM, puede ser útil familiarizarse con la sintaxis de búsqueda. Las búsquedas generadas por el LLM se pueden inspeccionar, pero generalmente se muestran en la interfaz de usuario. Si necesita ver la consulta, expanda el elemento plegable de MCP.

Consultas de ejemplo

Ejemplo de consultaDescripción
privacidadcoincidencia de palabra clave única de texto completo
"política de privacidad"texto completo coincide con la frase exacta
límite*El comodín de texto completo coincide con los resultados que comienzan con boundar (límite, límites)
identificación: 12345El campo id coincide con un recurso específico por ID
URL: ejemplo.com/*El campo URL coincide con los resultados de la URL que contiene ejemplo.com/
tipo: htmlEl campo de tipo coincide solo con páginas HTML
estado: 200El campo de estado coincide con códigos de estado HTTP específicos (igual a 200)
estado: >=400El campo de estado coincide con un código de estado HTTP específico (mayor o igual a 400)
contenido: h1El campo de contenido coincide con el contenido (cuerpo de la respuesta HTTP, a menudo, pero no siempre HTML)
encabezados: texto/xmlEl campo de encabezados coincide con los encabezados de respuesta HTTP
privacidad Y políticael texto completo coincide con ambos
política de privacidadEl texto completo coincide con cualquiera de los dos
política NO privacidadEl texto completo coincide con políticas que no contienen información sobre privacidad.
(iniciar sesión O iniciar sesión) Y formulariotexto completo coincide con el texto completo iniciar sesión o iniciar sesión con formulario
tipo: html Y estado: 200El texto completo coincide solo con páginas HTML con éxito HTTP

Definiciones de búsqueda de campos

La búsqueda por campos proporciona precisión, lo que permite especificar qué columnas del índice de búsqueda filtrar. En lugar de buscar en todo el contenido, se puede restringir la consulta a atributos específicos, como URL, encabezados o el cuerpo del contenido. Este enfoque mejora la eficiencia al buscar atributos o patrones específicos en los datos de rastreo.

CampoDescripción
identificaciónID de base de datos
URLURL del recurso
tipolista enumerada de tipos (ver tabla de tipos)
estadoCódigos de respuesta HTTP
encabezadosEncabezados de respuesta HTTP
contenidoCuerpo HTTP: HTML, CSS, JS y más

Tipos de contenido

Los rastreos contienen una gran variedad de tipos de recursos además de las páginas HTML. La búsqueda por campo type: permite filtrar por grupos amplios de tipos de contenido, lo cual es especialmente útil al filtrar imágenes sin consultas de extensión complejas. Por ejemplo, puede buscar type: html NOT content: login para encontrar páginas sin "login" o type: img para analizar recursos de imágenes. La siguiente tabla muestra todos los tipos de contenido admitidos en el sistema de búsqueda.

TipoDescripción
htmlpáginas web
iframeiframes
imagenimágenes web
audioarchivos de audio web
videoarchivos de vídeo web
fuentearchivos de fuentes web
estiloHojas de estilo CSS
guionArchivos JavaScript
rssFuentes de sindicación RSS
textocontenido de texto sin formato
pdfArchivos PDF
docDocumentos de MS Word
otroSin categorizar
-
security - not tested
F
license - not found
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

Acorta la distancia entre tu rastreo web y los modelos de lenguaje de IA. Con mcp-server-webcrawl, tu cliente de IA filtra y analiza el contenido web bajo tu supervisión o de forma autónoma, extrayendo información valiosa de tu contenido.

Admite rastreadores WARC, wget, InterroBot, Katana y SiteOne.

  1. Características
    1. Configuración de MCP
      1. Windows frente a macOS
      2. wget (usando --mirror)
      3. WARC
      4. InterroBot
      5. Katana
      6. SiteOne (utilizando Generar sitio web sin conexión )
    2. Sintaxis de búsqueda booleana
      1. Definiciones de búsqueda de campos
        1. Tipos de contenido

          Related MCP Servers

          • -
            security
            A
            license
            -
            quality
            Crawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.
            Last updated -
            81
            Python
            MIT License
            • Apple
            • Linux
          • -
            security
            A
            license
            -
            quality
            An MCP server that helps AI assistants access text content from websites that implement bot detection, bridging the gap between what you can see in your browser and what the AI can access.
            Last updated -
            1
            Python
            Apache 2.0
          • -
            security
            F
            license
            -
            quality
            An MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.
            Last updated -
            Python
          • -
            security
            -
            license
            -
            quality
            An MCP server that enhances Brave Search results by using Puppeteer to extract full webpage content and explore linked pages, enabling AI assistants to perform comprehensive web research with configurable depth.
            Last updated -
            1
            TypeScript

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/pragmar/mcp_server_webcrawl'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server