mcp-сервер-webcrawl

Устраните разрыв между вашим веб-сканированием и языковыми моделями ИИ с помощью Model Context Protocol (MCP). С mcp-server-webcrawl ваш клиент ИИ фильтрует и анализирует веб-контент под вашим руководством или автономно. Сервер включает интерфейс полнотекстового поиска с поддержкой булевых значений, фильтрацию ресурсов по типу, статусу HTTP и т. д.

mcp-server-webcrawl предоставляет LLM полное меню для поиска вашего веб-контента и работает с различными веб-сканерами:

mcp-server-webcrawl — бесплатный и открытый исходный код, требует Claude Desktop и Python (>=3.10). Он устанавливается в командной строке с помощью pip install:

pip install mcp-server-webcrawl

Функции

Готов к использованию на рабочем столе Клода
Поддержка полнотекстового поиска
Фильтр по типу, статусу и т. д.
Совместимость с несколькими краулерами
Поддерживает расширенный/логический поиск и поиск по полям

Конфигурация МКП

Из меню Claude Desktop перейдите в File > Settings > Developer. Нажмите Edit Config, чтобы найти файл конфигурации, откройте его в редакторе по вашему выбору и измените пример, чтобы отразить ваш путь datasrc.

При необходимости вы можете настроить больше подключений mcp-server-webcrawl в разделе mcpServers.

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

Пошаговые инструкции по настройке см. в руководствах по настройке .

Windows против macOS

Windows: команда установлена на "mcp-server-webcrawl"

macOS: команда установлена на абсолютный путь, т.е. значение $, которое mcp-server-webcrawl

Например:

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

Чтобы найти абсолютный путь к исполняемому файлу mcp-server-webcrawl в вашей системе:

Открытый терминал
Запустите which mcp-server-webcrawl
Скопируйте полный возвращенный путь и используйте его в вашем конфигурационном файле.

wget (используя --mirror)

Аргумент datasrc должен быть установлен на родительский каталог зеркал.

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

ВАРК

Аргумент datasrc должен указывать на родительский каталог файлов WARC.

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

ИнтерроБот

Аргумент datasrc должен указывать прямой путь к базе данных.

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

Катана

Аргумент datasrc должен быть установлен в каталог корневых хостов. Katana разделяет страницы и медиа по хостам, ./archives/example.com/example.com ожидается и подходит. Более сложные сайты расширяют данные сканирования в исходные каталоги хостов.

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne (с использованием функции «Создать офлайн-сайт» )

Аргумент datasrc должен быть установлен на родительский каталог архивов, архивирование должно быть включено.

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

Синтаксис поиска по булевому типу

Механизм запросов поддерживает поиск по полям ( field: value ) и сложные логические выражения. Полный текст поддерживается как комбинация полей url, content и headers.

Хотя интерфейс API предназначен для непосредственного использования LLM, может быть полезно ознакомиться с синтаксисом поиска. Поисковые запросы, сгенерированные LLM, можно просматривать, но обычно они сворачиваются в пользовательском интерфейсе. Если вам нужно увидеть запрос, разверните MCP collapable.

Примеры запросов

Пример запроса	Описание
конфиденциальность	полнотекстовое совпадение по одному ключевому слову
"политика конфиденциальности"	полное совпадение точной фразы
граница*	полнотекстовый подстановочный знак соответствует результатам, начинающимся с borderar (граница, границы)
идентификатор: 12345	Поле идентификатора соответствует определенному ресурсу по идентификатору
URL-адрес: example.com/*	поле url соответствует результатам с URL, содержащим example.com/
тип: html	поле типа соответствует только для HTML-страниц
статус: 200	поле статуса соответствует определенным кодам статуса HTTP (равным 200)
статус: >=400	поле статуса соответствует определенному коду статуса HTTP (больше или равно 400)
содержание: h1	поле содержимого соответствует содержимому (тело ответа HTTP, часто, но не всегда, HTML)
заголовки: текст/xml	поле заголовков соответствует заголовкам HTTP-ответа
Политика конфиденциальности И	полный текст соответствует обоим
политика конфиденциальности ИЛИ	полный текст соответствует либо
политика НЕ конфиденциальность	полный текст соответствует политикам, не содержащим конфиденциальности
(логин ИЛИ вход) И форма	полный текст соответствует полному тексту входа или входа с помощью формы
тип: html И статус: 200	полный текст соответствует только HTML-страницам с успешным HTTP-запросом

Определения поиска по полю

Поиск по полю обеспечивает точность поиска, позволяя вам указать, какие столбцы поискового индекса фильтровать. Вместо поиска по всему контенту вы можете ограничить свой запрос определенными атрибутами, такими как URL-адреса, заголовки или тело контента. Такой подход повышает эффективность при поиске определенных атрибутов или шаблонов в данных сканирования.

Поле	Описание
идентификатор	идентификатор базы данных
URL-адрес	URL-адрес ресурса
тип	пронумерованный список типов (см. таблицу типов)
статус	Коды ответов HTTP
заголовки	Заголовки HTTP-ответа
содержание	Тело HTTP — HTML, CSS, JS и т. д.

Типы контента

Сканирование содержит множество типов ресурсов помимо HTML-страниц. Поиск по полю type: позволяет фильтровать по широким группам типов контента, что особенно полезно при фильтрации изображений без сложных запросов на расширение. Например, вы можете выполнить поиск по type: html NOT content: login , чтобы найти страницы без «login», или type: img чтобы проанализировать ресурсы изображений. В таблице ниже перечислены все поддерживаемые типы контента в поисковой системе.

Тип	Описание
html	веб-страницы
фрейм	фреймы
имг	веб-изображения
аудио	веб-аудиофайлы
видео	веб-видеофайлы
шрифт	файлы веб-шрифтов
стиль	Таблицы стилей CSS
сценарий	JavaScript-файлы
rss	RSS-каналы синдикации
текст	простой текстовый контент
pdf	PDF-файлы
док	Документы MS Word
другой	без рубрики

This server cannot be installed

security - not tested

license - not tested

quality - not tested

How are these scores calculated?

local-only server

The server can only run on the client's local machine because it depends on local resources.

Устраните разрыв между вашим веб-сканированием и языковыми моделями ИИ. С mcp-server-webcrawl ваш клиент ИИ фильтрует и анализирует веб-контент под вашим руководством или автономно, извлекая информацию из вашего веб-контента.

Поддерживает сканеры WARC, wget, InterroBot, Katana и SiteOne.

Related MCP Servers

Crawl4AI MCP Server
weidwonder
-
security
-
license
-
quality
Crawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.
Last updated -
118
MIT License
pure.md MCP serverofficial
puremd
A
security
-
license
A
quality
An MCP server that enables AI clients like Cursor, Windsurf, and Claude Desktop to access web content in markdown format, providing web unblocking and searching capabilities.
Last updated -
2
32
41
API Docs MCP Server
ShotaNagafuchi
-
security
-
license
-
quality
An MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.
Last updated -
crawl4ai-mcp
ritvij14
A
security
-
license
A
quality
An MCP Server for Web scraping and Crawling, built using Crawl4AI
Last updated -
2
25

View all related MCP servers

mcp-server-webcrawl

mcp-сервер-webcrawl

Функции

Конфигурация МКП

Windows против macOS

wget (используя --mirror)

ВАРК

ИнтерроБот

Катана

SiteOne (с использованием функции «Создать офлайн-сайт» )

Синтаксис поиска по булевому типу

Определения поиска по полю

Типы контента

Related MCP Servers

Crawl4AI MCP Server

pure.md MCP serverofficial

API Docs MCP Server

crawl4ai-mcp

Appeared in Searches

New MCP Servers

MCP directory API