mcp-server-webcrawl
Überbrücken Sie die Lücke zwischen Ihrem Webcrawl und KI-Sprachmodellen mit dem Model Context Protocol (MCP). Mit mcp-server-webcrawl filtert und analysiert Ihr KI-Client Webinhalte unter Ihrer Anleitung oder autonom. Der Server bietet eine Volltextsuche mit Boolescher Unterstützung, Ressourcenfilterung nach Typ, HTTP-Status und mehr.
mcp-server-webcrawl bietet dem LLM ein vollständiges Menü zum Durchsuchen Ihrer Webinhalte und funktioniert mit einer Vielzahl von Webcrawlern:
mcp-server-webcrawl ist kostenlos und Open Source und erfordert Claude Desktop und Python (>=3.10). Die Installation erfolgt über die Kommandozeile mit pip install:
Merkmale
- Claude Desktop bereit
- Unterstützung der Volltextsuche
- Filtern nach Typ, Status und mehr
- Multi-Crawler-kompatibel
- Unterstützt erweiterte/boolesche und Feldsuche
MCP-Konfiguration
Navigieren Sie im Claude Desktop-Menü zu Datei > Einstellungen > Entwickler. Klicken Sie auf „Konfiguration bearbeiten“, um die Konfigurationsdatei zu finden. Öffnen Sie sie in einem Editor Ihrer Wahl und passen Sie das Beispiel an Ihren datasrc-Pfad an.
Sie können bei Bedarf weitere MCP-Server-Webcrawl-Verbindungen unter mcpServers einrichten.
Eine schrittweise Anleitung zur Einrichtung finden Sie in den Einrichtungshandbüchern .
Windows vs. macOS
Windows: Befehl auf „mcp-server-webcrawl“ eingestellt
macOS: Befehl auf absoluten Pfad setzen, also den Wert von $ which mcp-server-webcrawl
Zum Beispiel:
So finden Sie den absoluten Pfad der ausführbaren Datei mcp-server-webcrawl
auf Ihrem System:
- Terminal öffnen
- Führen Sie
which mcp-server-webcrawl
aus - Kopieren Sie den vollständigen zurückgegebenen Pfad und verwenden Sie ihn in Ihrer Konfigurationsdatei
wget (mit --mirror)
Das Argument datasrc sollte auf das übergeordnete Verzeichnis der Spiegel gesetzt werden.
WARC
Das Argument datasrc sollte auf das übergeordnete Verzeichnis der WARC-Dateien gesetzt werden.
InterroBot
Das Argument datasrc sollte auf den direkten Pfad zur Datenbank gesetzt werden.
Katana
Das Argument datasrc sollte auf das Verzeichnis der Stammhosts gesetzt werden. Katana trennt Seiten und Medien nach Hosts. ./archives/example.com/example.com wird erwartet und ist angemessen. Komplexere Websites erweitern die Crawl-Daten in die Ursprungshostverzeichnisse.
SiteOne (mithilfe der Offline-Website generieren )
Das Argument datasrc sollte auf das übergeordnete Verzeichnis der Archive gesetzt werden, die Archivierung muss aktiviert sein.
Boolesche Suchsyntax
Die Abfrage-Engine unterstützt feldspezifische ( field: value
) Suchen und komplexe boolesche Ausdrücke. Volltext wird als Kombination der Felder „URL“, „Inhalt“ und „Header“ unterstützt.
Obwohl die API-Schnittstelle für die direkte Nutzung durch das LLM konzipiert ist, kann es hilfreich sein, sich mit der Suchsyntax vertraut zu machen. Vom LLM generierte Suchvorgänge sind zwar überprüfbar, werden aber in der Benutzeroberfläche in der Regel reduziert. Wenn Sie die Abfrage sehen möchten, erweitern Sie die MCP-Reduzierbarkeit.
Beispielabfragen
Abfragebeispiel | Beschreibung |
---|---|
Datenschutz | Volltext mit einzelner Schlüsselwortübereinstimmung |
"Datenschutzrichtlinie" | Volltextübereinstimmung mit exakter Phrase |
Grenze* | Volltext-Platzhalter stimmt mit Ergebnissen überein, die mit Boundar (Boundary, Boundaries) beginnen. |
ID: 12345 | Das ID-Feld stimmt mit einer bestimmten Ressource über die ID überein |
URL: example.com/* | Das URL-Feld gleicht Ergebnisse mit einer URL ab, die example.com/ enthält. |
Typ: HTML | Typfeldübereinstimmungen nur für HTML-Seiten |
Status: 200 | Das Statusfeld entspricht bestimmten HTTP-Statuscodes (entspricht 200). |
Status: >=400 | Das Statusfeld entspricht einem bestimmten HTTP-Statuscode (größer oder gleich 400). |
Inhalt: h1 | Inhaltsfeld entspricht Inhalt (HTTP-Antworttext, oft, aber nicht immer HTML) |
Überschriften: Text/XML | Das Header-Feld entspricht den HTTP-Antwortheadern |
Datenschutz und Richtlinien | Volltext stimmt mit beiden überein |
Datenschutz-Bestimmungen | Volltext stimmt entweder überein |
Richtlinien, NICHT Datenschutz | Volltext stimmt mit Richtlinien überein, die keinen Datenschutz enthalten |
(Anmelden ODER Anmelden) UND Formular | Volltext stimmt mit Volltext überein, Login oder Anmeldung mit Formular |
Typ: HTML UND Status: 200 | Volltext stimmt nur mit HTML-Seiten überein, bei denen HTTP erfolgreich war |
Feldsuchdefinitionen
Die Feldsuche bietet Suchpräzision und ermöglicht es Ihnen, festzulegen, welche Spalten des Suchindex gefiltert werden sollen. Anstatt den gesamten Inhalt zu durchsuchen, können Sie Ihre Abfrage auf bestimmte Attribute wie URLs, Überschriften oder den Textkörper beschränken. Dieser Ansatz verbessert die Effizienz bei der Suche nach bestimmten Attributen oder Mustern in Crawldaten.
Feld | Beschreibung |
---|---|
Ausweis | Datenbank-ID |
URL | Ressourcen-URL |
Typ | Aufzählungsliste der Typen (siehe Typentabelle) |
Status | HTTP-Antwortcodes |
Überschriften | HTTP-Antwortheader |
Inhalt | HTTP-Text – HTML, CSS, JS und mehr |
Inhaltstypen
Crawls erfassen eine Vielzahl von Ressourcentypen, die über HTML-Seiten hinausgehen. Die Suche im Feld type:
ermöglicht das Filtern nach breiten Inhaltstypgruppen. Dies ist besonders nützlich beim Filtern von Bildern ohne komplexe Erweiterungsabfragen. Beispielsweise können Sie nach type: html NOT content: login
suchen, um Seiten ohne „login“ zu finden, oder type: img
, um Bildressourcen zu analysieren. Die folgende Tabelle listet alle im Suchsystem unterstützten Inhaltstypen auf.
Typ | Beschreibung |
---|---|
html | Webseiten |
iframe | iframes |
img | Webbilder |
Audio- | Web-Audiodateien |
Video | Webvideodateien |
Schriftart | Webfont-Dateien |
Stil | CSS-Stylesheets |
Skript | JavaScript-Dateien |
RSS | RSS-Syndication-Feeds |
Text | Nur-Text-Inhalt |
PDF-Dateien | |
Dokument | MS Word-Dokumente |
andere | nicht kategorisiert |
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Schließen Sie die Lücke zwischen Ihrem Web-Crawler und KI-Sprachmodellen. Mit mcp-server-webcrawl filtert und analysiert Ihr KI-Client Webinhalte unter Ihrer Anleitung oder autonom und gewinnt daraus Erkenntnisse.
Unterstützt WARC-, Wget-, InterroBot-, Katana- und SiteOne-Crawler.
Related MCP Servers
- -securityAlicense-qualityCrawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.Last updated -81PythonMIT License
- -securityAlicense-qualityAn MCP server that helps AI assistants access text content from websites that implement bot detection, bridging the gap between what you can see in your browser and what the AI can access.Last updated -1PythonApache 2.0
- -securityFlicense-qualityAn MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.Last updated -Python
- -security-license-qualityAn MCP server that enhances Brave Search results by using Puppeteer to extract full webpage content and explore linked pages, enabling AI assistants to perform comprehensive web research with configurable depth.Last updated -1TypeScript