Skip to main content
Glama

mcp-server-webcrawl

by pragmar

mcp-server-webcrawl

Überbrücken Sie die Lücke zwischen Ihrem Webcrawl und KI-Sprachmodellen mit dem Model Context Protocol (MCP). Mit mcp-server-webcrawl filtert und analysiert Ihr KI-Client Webinhalte unter Ihrer Anleitung oder autonom. Der Server bietet eine Volltextsuche mit Boolescher Unterstützung, Ressourcenfilterung nach Typ, HTTP-Status und mehr.

mcp-server-webcrawl bietet dem LLM ein vollständiges Menü zum Durchsuchen Ihrer Webinhalte und funktioniert mit einer Vielzahl von Webcrawlern:

mcp-server-webcrawl ist kostenlos und Open Source und erfordert Claude Desktop und Python (>=3.10). Die Installation erfolgt über die Kommandozeile mit pip install:

pip install mcp-server-webcrawl

Merkmale

  • Claude Desktop bereit
  • Unterstützung der Volltextsuche
  • Filtern nach Typ, Status und mehr
  • Multi-Crawler-kompatibel
  • Unterstützt erweiterte/boolesche und Feldsuche

MCP-Konfiguration

Navigieren Sie im Claude Desktop-Menü zu Datei > Einstellungen > Entwickler. Klicken Sie auf „Konfiguration bearbeiten“, um die Konfigurationsdatei zu finden. Öffnen Sie sie in einem Editor Ihrer Wahl und passen Sie das Beispiel an Ihren datasrc-Pfad an.

Sie können bei Bedarf weitere MCP-Server-Webcrawl-Verbindungen unter mcpServers einrichten.

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

Eine schrittweise Anleitung zur Einrichtung finden Sie in den Einrichtungshandbüchern .

Windows vs. macOS

Windows: Befehl auf „mcp-server-webcrawl“ eingestellt

macOS: Befehl auf absoluten Pfad setzen, also den Wert von $ which mcp-server-webcrawl

Zum Beispiel:

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

So finden Sie den absoluten Pfad der ausführbaren Datei mcp-server-webcrawl auf Ihrem System:

  1. Terminal öffnen
  2. Führen Sie which mcp-server-webcrawl aus
  3. Kopieren Sie den vollständigen zurückgegebenen Pfad und verwenden Sie ihn in Ihrer Konfigurationsdatei

wget (mit --mirror)

Das Argument datasrc sollte auf das übergeordnete Verzeichnis der Spiegel gesetzt werden.

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

Das Argument datasrc sollte auf das übergeordnete Verzeichnis der WARC-Dateien gesetzt werden.

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

InterroBot

Das Argument datasrc sollte auf den direkten Pfad zur Datenbank gesetzt werden.

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

Katana

Das Argument datasrc sollte auf das Verzeichnis der Stammhosts gesetzt werden. Katana trennt Seiten und Medien nach Hosts. ./archives/example.com/example.com wird erwartet und ist angemessen. Komplexere Websites erweitern die Crawl-Daten in die Ursprungshostverzeichnisse.

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne (mithilfe der Offline-Website generieren )

Das Argument datasrc sollte auf das übergeordnete Verzeichnis der Archive gesetzt werden, die Archivierung muss aktiviert sein.

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

Boolesche Suchsyntax

Die Abfrage-Engine unterstützt feldspezifische ( field: value ) Suchen und komplexe boolesche Ausdrücke. Volltext wird als Kombination der Felder „URL“, „Inhalt“ und „Header“ unterstützt.

Obwohl die API-Schnittstelle für die direkte Nutzung durch das LLM konzipiert ist, kann es hilfreich sein, sich mit der Suchsyntax vertraut zu machen. Vom LLM generierte Suchvorgänge sind zwar überprüfbar, werden aber in der Benutzeroberfläche in der Regel reduziert. Wenn Sie die Abfrage sehen möchten, erweitern Sie die MCP-Reduzierbarkeit.

Beispielabfragen

AbfragebeispielBeschreibung
DatenschutzVolltext mit einzelner Schlüsselwortübereinstimmung
"Datenschutzrichtlinie"Volltextübereinstimmung mit exakter Phrase
Grenze*Volltext-Platzhalter stimmt mit Ergebnissen überein, die mit Boundar (Boundary, Boundaries) beginnen.
ID: 12345Das ID-Feld stimmt mit einer bestimmten Ressource über die ID überein
URL: example.com/*Das URL-Feld gleicht Ergebnisse mit einer URL ab, die example.com/ enthält.
Typ: HTMLTypfeldübereinstimmungen nur für HTML-Seiten
Status: 200Das Statusfeld entspricht bestimmten HTTP-Statuscodes (entspricht 200).
Status: >=400Das Statusfeld entspricht einem bestimmten HTTP-Statuscode (größer oder gleich 400).
Inhalt: h1Inhaltsfeld entspricht Inhalt (HTTP-Antworttext, oft, aber nicht immer HTML)
Überschriften: Text/XMLDas Header-Feld entspricht den HTTP-Antwortheadern
Datenschutz und RichtlinienVolltext stimmt mit beiden überein
Datenschutz-BestimmungenVolltext stimmt entweder überein
Richtlinien, NICHT DatenschutzVolltext stimmt mit Richtlinien überein, die keinen Datenschutz enthalten
(Anmelden ODER Anmelden) UND FormularVolltext stimmt mit Volltext überein, Login oder Anmeldung mit Formular
Typ: HTML UND Status: 200Volltext stimmt nur mit HTML-Seiten überein, bei denen HTTP erfolgreich war

Feldsuchdefinitionen

Die Feldsuche bietet Suchpräzision und ermöglicht es Ihnen, festzulegen, welche Spalten des Suchindex gefiltert werden sollen. Anstatt den gesamten Inhalt zu durchsuchen, können Sie Ihre Abfrage auf bestimmte Attribute wie URLs, Überschriften oder den Textkörper beschränken. Dieser Ansatz verbessert die Effizienz bei der Suche nach bestimmten Attributen oder Mustern in Crawldaten.

FeldBeschreibung
AusweisDatenbank-ID
URLRessourcen-URL
TypAufzählungsliste der Typen (siehe Typentabelle)
StatusHTTP-Antwortcodes
ÜberschriftenHTTP-Antwortheader
InhaltHTTP-Text – HTML, CSS, JS und mehr

Inhaltstypen

Crawls erfassen eine Vielzahl von Ressourcentypen, die über HTML-Seiten hinausgehen. Die Suche im Feld type: ermöglicht das Filtern nach breiten Inhaltstypgruppen. Dies ist besonders nützlich beim Filtern von Bildern ohne komplexe Erweiterungsabfragen. Beispielsweise können Sie nach type: html NOT content: login suchen, um Seiten ohne „login“ zu finden, oder type: img , um Bildressourcen zu analysieren. Die folgende Tabelle listet alle im Suchsystem unterstützten Inhaltstypen auf.

TypBeschreibung
htmlWebseiten
iframeiframes
imgWebbilder
Audio-Web-Audiodateien
VideoWebvideodateien
SchriftartWebfont-Dateien
StilCSS-Stylesheets
SkriptJavaScript-Dateien
RSSRSS-Syndication-Feeds
TextNur-Text-Inhalt
pdfPDF-Dateien
DokumentMS Word-Dokumente
anderenicht kategorisiert
-
security - not tested
F
license - not found
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

Schließen Sie die Lücke zwischen Ihrem Web-Crawler und KI-Sprachmodellen. Mit mcp-server-webcrawl filtert und analysiert Ihr KI-Client Webinhalte unter Ihrer Anleitung oder autonom und gewinnt daraus Erkenntnisse.

Unterstützt WARC-, Wget-, InterroBot-, Katana- und SiteOne-Crawler.

  1. Merkmale
    1. MCP-Konfiguration
      1. Windows vs. macOS
      2. wget (mit --mirror)
      3. WARC
      4. InterroBot
      5. Katana
      6. SiteOne (mithilfe der Offline-Website generieren )
    2. Boolesche Suchsyntax
      1. Feldsuchdefinitionen
        1. Inhaltstypen

          Related MCP Servers

          • -
            security
            A
            license
            -
            quality
            Crawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.
            Last updated -
            81
            Python
            MIT License
            • Apple
            • Linux
          • -
            security
            A
            license
            -
            quality
            An MCP server that helps AI assistants access text content from websites that implement bot detection, bridging the gap between what you can see in your browser and what the AI can access.
            Last updated -
            1
            Python
            Apache 2.0
          • -
            security
            F
            license
            -
            quality
            An MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.
            Last updated -
            Python
          • -
            security
            -
            license
            -
            quality
            An MCP server that enhances Brave Search results by using Puppeteer to extract full webpage content and explore linked pages, enabling AI assistants to perform comprehensive web research with configurable depth.
            Last updated -
            1
            TypeScript

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/pragmar/mcp_server_webcrawl'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server