mcp-server-webcrawl

Überbrücken Sie die Lücke zwischen Ihrem Webcrawl und KI-Sprachmodellen mit dem Model Context Protocol (MCP). Mit mcp-server-webcrawl filtert und analysiert Ihr KI-Client Webinhalte unter Ihrer Anleitung oder autonom. Der Server bietet eine Volltextsuche mit Boolescher Unterstützung, Ressourcenfilterung nach Typ, HTTP-Status und mehr.

mcp-server-webcrawl bietet dem LLM ein vollständiges Menü zum Durchsuchen Ihrer Webinhalte und funktioniert mit einer Vielzahl von Webcrawlern:

mcp-server-webcrawl ist kostenlos und Open Source und erfordert Claude Desktop und Python (>=3.10). Die Installation erfolgt über die Kommandozeile mit pip install:

pip install mcp-server-webcrawl

Merkmale

Claude Desktop bereit
Unterstützung der Volltextsuche
Filtern nach Typ, Status und mehr
Multi-Crawler-kompatibel
Unterstützt erweiterte/boolesche und Feldsuche

MCP-Konfiguration

Navigieren Sie im Claude Desktop-Menü zu Datei > Einstellungen > Entwickler. Klicken Sie auf „Konfiguration bearbeiten“, um die Konfigurationsdatei zu finden. Öffnen Sie sie in einem Editor Ihrer Wahl und passen Sie das Beispiel an Ihren datasrc-Pfad an.

Sie können bei Bedarf weitere MCP-Server-Webcrawl-Verbindungen unter mcpServers einrichten.

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

Eine schrittweise Anleitung zur Einrichtung finden Sie in den Einrichtungshandbüchern .

Windows vs. macOS

Windows: Befehl auf „mcp-server-webcrawl“ eingestellt

macOS: Befehl auf absoluten Pfad setzen, also den Wert von $ which mcp-server-webcrawl

Zum Beispiel:

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

So finden Sie den absoluten Pfad der ausführbaren Datei mcp-server-webcrawl auf Ihrem System:

Terminal öffnen
Führen Sie which mcp-server-webcrawl aus
Kopieren Sie den vollständigen zurückgegebenen Pfad und verwenden Sie ihn in Ihrer Konfigurationsdatei

wget (mit --mirror)

Das Argument datasrc sollte auf das übergeordnete Verzeichnis der Spiegel gesetzt werden.

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

WARC

Das Argument datasrc sollte auf das übergeordnete Verzeichnis der WARC-Dateien gesetzt werden.

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

InterroBot

Das Argument datasrc sollte auf den direkten Pfad zur Datenbank gesetzt werden.

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

Katana

Das Argument datasrc sollte auf das Verzeichnis der Stammhosts gesetzt werden. Katana trennt Seiten und Medien nach Hosts. ./archives/example.com/example.com wird erwartet und ist angemessen. Komplexere Websites erweitern die Crawl-Daten in die Ursprungshostverzeichnisse.

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne (mithilfe der Offline-Website generieren )

Das Argument datasrc sollte auf das übergeordnete Verzeichnis der Archive gesetzt werden, die Archivierung muss aktiviert sein.

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

Boolesche Suchsyntax

Die Abfrage-Engine unterstützt feldspezifische ( field: value ) Suchen und komplexe boolesche Ausdrücke. Volltext wird als Kombination der Felder „URL“, „Inhalt“ und „Header“ unterstützt.

Obwohl die API-Schnittstelle für die direkte Nutzung durch das LLM konzipiert ist, kann es hilfreich sein, sich mit der Suchsyntax vertraut zu machen. Vom LLM generierte Suchvorgänge sind zwar überprüfbar, werden aber in der Benutzeroberfläche in der Regel reduziert. Wenn Sie die Abfrage sehen möchten, erweitern Sie die MCP-Reduzierbarkeit.

Beispielabfragen

Abfragebeispiel	Beschreibung
Datenschutz	Volltext mit einzelner Schlüsselwortübereinstimmung
"Datenschutzrichtlinie"	Volltextübereinstimmung mit exakter Phrase
Grenze*	Volltext-Platzhalter stimmt mit Ergebnissen überein, die mit Boundar (Boundary, Boundaries) beginnen.
ID: 12345	Das ID-Feld stimmt mit einer bestimmten Ressource über die ID überein
URL: example.com/*	Das URL-Feld gleicht Ergebnisse mit einer URL ab, die example.com/ enthält.
Typ: HTML	Typfeldübereinstimmungen nur für HTML-Seiten
Status: 200	Das Statusfeld entspricht bestimmten HTTP-Statuscodes (entspricht 200).
Status: >=400	Das Statusfeld entspricht einem bestimmten HTTP-Statuscode (größer oder gleich 400).
Inhalt: h1	Inhaltsfeld entspricht Inhalt (HTTP-Antworttext, oft, aber nicht immer HTML)
Überschriften: Text/XML	Das Header-Feld entspricht den HTTP-Antwortheadern
Datenschutz und Richtlinien	Volltext stimmt mit beiden überein
Datenschutz-Bestimmungen	Volltext stimmt entweder überein
Richtlinien, NICHT Datenschutz	Volltext stimmt mit Richtlinien überein, die keinen Datenschutz enthalten
(Anmelden ODER Anmelden) UND Formular	Volltext stimmt mit Volltext überein, Login oder Anmeldung mit Formular
Typ: HTML UND Status: 200	Volltext stimmt nur mit HTML-Seiten überein, bei denen HTTP erfolgreich war

Feldsuchdefinitionen

Die Feldsuche bietet Suchpräzision und ermöglicht es Ihnen, festzulegen, welche Spalten des Suchindex gefiltert werden sollen. Anstatt den gesamten Inhalt zu durchsuchen, können Sie Ihre Abfrage auf bestimmte Attribute wie URLs, Überschriften oder den Textkörper beschränken. Dieser Ansatz verbessert die Effizienz bei der Suche nach bestimmten Attributen oder Mustern in Crawldaten.

Feld	Beschreibung
Ausweis	Datenbank-ID
URL	Ressourcen-URL
Typ	Aufzählungsliste der Typen (siehe Typentabelle)
Status	HTTP-Antwortcodes
Überschriften	HTTP-Antwortheader
Inhalt	HTTP-Text – HTML, CSS, JS und mehr

Inhaltstypen

Crawls erfassen eine Vielzahl von Ressourcentypen, die über HTML-Seiten hinausgehen. Die Suche im Feld type: ermöglicht das Filtern nach breiten Inhaltstypgruppen. Dies ist besonders nützlich beim Filtern von Bildern ohne komplexe Erweiterungsabfragen. Beispielsweise können Sie nach type: html NOT content: login suchen, um Seiten ohne „login“ zu finden, oder type: img , um Bildressourcen zu analysieren. Die folgende Tabelle listet alle im Suchsystem unterstützten Inhaltstypen auf.

Typ	Beschreibung
html	Webseiten
iframe	iframes
img	Webbilder
Audio-	Web-Audiodateien
Video	Webvideodateien
Schriftart	Webfont-Dateien
Stil	CSS-Stylesheets
Skript	JavaScript-Dateien
RSS	RSS-Syndication-Feeds
Text	Nur-Text-Inhalt
pdf	PDF-Dateien
Dokument	MS Word-Dokumente
andere	nicht kategorisiert

This server cannot be installed

security - not tested

license - not tested

quality - not tested

How are these scores calculated?

local-only server

The server can only run on the client's local machine because it depends on local resources.

Schließen Sie die Lücke zwischen Ihrem Web-Crawler und KI-Sprachmodellen. Mit mcp-server-webcrawl filtert und analysiert Ihr KI-Client Webinhalte unter Ihrer Anleitung oder autonom und gewinnt daraus Erkenntnisse.

Unterstützt WARC-, Wget-, InterroBot-, Katana- und SiteOne-Crawler.

Related MCP Servers

Crawl4AI MCP Server
weidwonder
-
security
-
license
-
quality
Crawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.
Last updated -
118
MIT License
pure.md MCP serverofficial
puremd
A
security
-
license
A
quality
An MCP server that enables AI clients like Cursor, Windsurf, and Claude Desktop to access web content in markdown format, providing web unblocking and searching capabilities.
Last updated -
2
32
41
API Docs MCP Server
ShotaNagafuchi
-
security
-
license
-
quality
An MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.
Last updated -
crawl4ai-mcp
ritvij14
A
security
-
license
A
quality
An MCP Server for Web scraping and Crawling, built using Crawl4AI
Last updated -
2
25

View all related MCP servers

mcp-server-webcrawl

mcp-server-webcrawl

Merkmale

MCP-Konfiguration

Windows vs. macOS

wget (mit --mirror)

WARC

InterroBot

Katana

SiteOne (mithilfe der Offline-Website generieren )

Boolesche Suchsyntax

Feldsuchdefinitionen

Inhaltstypen

Related MCP Servers

Crawl4AI MCP Server

pure.md MCP serverofficial

API Docs MCP Server

crawl4ai-mcp

Appeared in Searches

New MCP Servers

MCP directory API