Skip to main content
Glama

mcp-server-webcrawl

mcp-server-webcrawl

Überbrücken Sie die Lücke zwischen Ihrem Webcrawl und KI-Sprachmodellen mit dem Model Context Protocol (MCP). Mit mcp-server-webcrawl filtert und analysiert Ihr KI-Client Webinhalte unter Ihrer Anleitung oder autonom. Der Server bietet eine Volltextsuche mit Boolescher Unterstützung, Ressourcenfilterung nach Typ, HTTP-Status und mehr.

mcp-server-webcrawl bietet dem LLM ein vollständiges Menü zum Durchsuchen Ihrer Webinhalte und funktioniert mit einer Vielzahl von Webcrawlern:

mcp-server-webcrawl ist kostenlos und Open Source und erfordert Claude Desktop und Python (>=3.10). Die Installation erfolgt über die Kommandozeile mit pip install:

pip install mcp-server-webcrawl

Merkmale

  • Claude Desktop bereit

  • Unterstützung der Volltextsuche

  • Filtern nach Typ, Status und mehr

  • Multi-Crawler-kompatibel

  • Unterstützt erweiterte/boolesche und Feldsuche

MCP-Konfiguration

Navigieren Sie im Claude Desktop-Menü zu Datei > Einstellungen > Entwickler. Klicken Sie auf „Konfiguration bearbeiten“, um die Konfigurationsdatei zu finden. Öffnen Sie sie in einem Editor Ihrer Wahl und passen Sie das Beispiel an Ihren datasrc-Pfad an.

Sie können bei Bedarf weitere MCP-Server-Webcrawl-Verbindungen unter mcpServers einrichten.

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

Eine schrittweise Anleitung zur Einrichtung finden Sie in den Einrichtungshandbüchern .

Windows vs. macOS

Windows: Befehl auf „mcp-server-webcrawl“ eingestellt

macOS: Befehl auf absoluten Pfad setzen, also den Wert von $ which mcp-server-webcrawl

Zum Beispiel:

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

So finden Sie den absoluten Pfad der ausführbaren Datei mcp-server-webcrawl auf Ihrem System:

  1. Terminal öffnen

  2. Führen Sie which mcp-server-webcrawl aus

  3. Kopieren Sie den vollständigen zurückgegebenen Pfad und verwenden Sie ihn in Ihrer Konfigurationsdatei

wget (mit --mirror)

Das Argument datasrc sollte auf das übergeordnete Verzeichnis der Spiegel gesetzt werden.

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

Das Argument datasrc sollte auf das übergeordnete Verzeichnis der WARC-Dateien gesetzt werden.

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

InterroBot

Das Argument datasrc sollte auf den direkten Pfad zur Datenbank gesetzt werden.

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

Katana

Das Argument datasrc sollte auf das Verzeichnis der Stammhosts gesetzt werden. Katana trennt Seiten und Medien nach Hosts. ./archives/example.com/example.com wird erwartet und ist angemessen. Komplexere Websites erweitern die Crawl-Daten in die Ursprungshostverzeichnisse.

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne (mithilfe der Offline-Website generieren )

Das Argument datasrc sollte auf das übergeordnete Verzeichnis der Archive gesetzt werden, die Archivierung muss aktiviert sein.

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

Boolesche Suchsyntax

Die Abfrage-Engine unterstützt feldspezifische ( field: value ) Suchen und komplexe boolesche Ausdrücke. Volltext wird als Kombination der Felder „URL“, „Inhalt“ und „Header“ unterstützt.

Obwohl die API-Schnittstelle für die direkte Nutzung durch das LLM konzipiert ist, kann es hilfreich sein, sich mit der Suchsyntax vertraut zu machen. Vom LLM generierte Suchvorgänge sind zwar überprüfbar, werden aber in der Benutzeroberfläche in der Regel reduziert. Wenn Sie die Abfrage sehen möchten, erweitern Sie die MCP-Reduzierbarkeit.

Beispielabfragen

Abfragebeispiel

Beschreibung

Datenschutz

Volltext mit einzelner Schlüsselwortübereinstimmung

"Datenschutzrichtlinie"

Volltextübereinstimmung mit exakter Phrase

Grenze*

Volltext-Platzhalter stimmt mit Ergebnissen überein, die mit

Boundar

(Boundary, Boundaries) beginnen.

ID: 12345

Das ID-Feld stimmt mit einer bestimmten Ressource über die ID überein

URL: example.com/*

Das URL-Feld gleicht Ergebnisse mit einer URL ab, die example.com/ enthält.

Typ: HTML

Typfeldübereinstimmungen nur für HTML-Seiten

Status: 200

Das Statusfeld entspricht bestimmten HTTP-Statuscodes (entspricht 200).

Status: >=400

Das Statusfeld entspricht einem bestimmten HTTP-Statuscode (größer oder gleich 400).

Inhalt: h1

Inhaltsfeld entspricht Inhalt (HTTP-Antworttext, oft, aber nicht immer HTML)

Überschriften: Text/XML

Das Header-Feld entspricht den HTTP-Antwortheadern

Datenschutz und Richtlinien

Volltext stimmt mit beiden überein

Datenschutz-Bestimmungen

Volltext stimmt entweder überein

Richtlinien, NICHT Datenschutz

Volltext stimmt mit Richtlinien überein, die keinen Datenschutz enthalten

(Anmelden ODER Anmelden) UND Formular

Volltext stimmt mit Volltext überein, Login oder Anmeldung mit Formular

Typ: HTML UND Status: 200

Volltext stimmt nur mit HTML-Seiten überein, bei denen HTTP erfolgreich war

Feldsuchdefinitionen

Die Feldsuche bietet Suchpräzision und ermöglicht es Ihnen, festzulegen, welche Spalten des Suchindex gefiltert werden sollen. Anstatt den gesamten Inhalt zu durchsuchen, können Sie Ihre Abfrage auf bestimmte Attribute wie URLs, Überschriften oder den Textkörper beschränken. Dieser Ansatz verbessert die Effizienz bei der Suche nach bestimmten Attributen oder Mustern in Crawldaten.

Feld

Beschreibung

Ausweis

Datenbank-ID

URL

Ressourcen-URL

Typ

Aufzählungsliste der Typen (siehe Typentabelle)

Status

HTTP-Antwortcodes

Überschriften

HTTP-Antwortheader

Inhalt

HTTP-Text – HTML, CSS, JS und mehr

Inhaltstypen

Crawls erfassen eine Vielzahl von Ressourcentypen, die über HTML-Seiten hinausgehen. Die Suche im Feld type: ermöglicht das Filtern nach breiten Inhaltstypgruppen. Dies ist besonders nützlich beim Filtern von Bildern ohne komplexe Erweiterungsabfragen. Beispielsweise können Sie nach type: html NOT content: login suchen, um Seiten ohne „login“ zu finden, oder type: img , um Bildressourcen zu analysieren. Die folgende Tabelle listet alle im Suchsystem unterstützten Inhaltstypen auf.

Typ

Beschreibung

html

Webseiten

iframe

iframes

img

Webbilder

Audio-

Web-Audiodateien

Video

Webvideodateien

Schriftart

Webfont-Dateien

Stil

CSS-Stylesheets

Skript

JavaScript-Dateien

RSS

RSS-Syndication-Feeds

Text

Nur-Text-Inhalt

pdf

PDF-Dateien

Dokument

MS Word-Dokumente

andere

nicht kategorisiert

-
security - not tested
-
license - not tested
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

Schließen Sie die Lücke zwischen Ihrem Web-Crawler und KI-Sprachmodellen. Mit mcp-server-webcrawl filtert und analysiert Ihr KI-Client Webinhalte unter Ihrer Anleitung oder autonom und gewinnt daraus Erkenntnisse.

Unterstützt WARC-, Wget-, InterroBot-, Katana- und SiteOne-Crawler.

  1. Merkmale
    1. MCP-Konfiguration
      1. Windows vs. macOS
      2. wget (mit --mirror)
      3. WARC
      4. InterroBot
      5. Katana
      6. SiteOne (mithilfe der Offline-Website generieren )
    2. Boolesche Suchsyntax
      1. Feldsuchdefinitionen
        1. Inhaltstypen

          Related MCP Servers

          • -
            security
            -
            license
            -
            quality
            Crawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.
            Last updated -
            118
            MIT License
            • Apple
            • Linux
          • A
            security
            -
            license
            A
            quality
            An MCP server that enables AI clients like Cursor, Windsurf, and Claude Desktop to access web content in markdown format, providing web unblocking and searching capabilities.
            Last updated -
            2
            32
            41
            • Apple
          • -
            security
            -
            license
            -
            quality
            An MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.
            Last updated -
          • A
            security
            -
            license
            A
            quality
            An MCP Server for Web scraping and Crawling, built using Crawl4AI
            Last updated -
            2
            25

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/pragmar/mcp_server_webcrawl'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server