mcp-сервер-webcrawl
Устраните разрыв между вашим веб-сканированием и языковыми моделями ИИ с помощью Model Context Protocol (MCP). С mcp-server-webcrawl ваш клиент ИИ фильтрует и анализирует веб-контент под вашим руководством или автономно. Сервер включает интерфейс полнотекстового поиска с поддержкой булевых значений, фильтрацию ресурсов по типу, статусу HTTP и т. д.
mcp-server-webcrawl предоставляет LLM полное меню для поиска вашего веб-контента и работает с различными веб-сканерами:
mcp-server-webcrawl — бесплатный и открытый исходный код, требует Claude Desktop и Python (>=3.10). Он устанавливается в командной строке с помощью pip install:
Функции
- Готов к использованию на рабочем столе Клода
- Поддержка полнотекстового поиска
- Фильтр по типу, статусу и т. д.
- Совместимость с несколькими краулерами
- Поддерживает расширенный/логический поиск и поиск по полям
Конфигурация МКП
Из меню Claude Desktop перейдите в File > Settings > Developer. Нажмите Edit Config, чтобы найти файл конфигурации, откройте его в редакторе по вашему выбору и измените пример, чтобы отразить ваш путь datasrc.
При необходимости вы можете настроить больше подключений mcp-server-webcrawl в разделе mcpServers.
Пошаговые инструкции по настройке см. в руководствах по настройке .
Windows против macOS
Windows: команда установлена на "mcp-server-webcrawl"
macOS: команда установлена на абсолютный путь, т.е. значение $, которое mcp-server-webcrawl
Например:
Чтобы найти абсолютный путь к исполняемому файлу mcp-server-webcrawl
в вашей системе:
- Открытый терминал
- Запустите
which mcp-server-webcrawl
- Скопируйте полный возвращенный путь и используйте его в вашем конфигурационном файле.
wget (используя --mirror)
Аргумент datasrc должен быть установлен на родительский каталог зеркал.
ВАРК
Аргумент datasrc должен указывать на родительский каталог файлов WARC.
ИнтерроБот
Аргумент datasrc должен указывать прямой путь к базе данных.
Катана
Аргумент datasrc должен быть установлен в каталог корневых хостов. Katana разделяет страницы и медиа по хостам, ./archives/example.com/example.com ожидается и подходит. Более сложные сайты расширяют данные сканирования в исходные каталоги хостов.
SiteOne (с использованием функции «Создать офлайн-сайт» )
Аргумент datasrc должен быть установлен на родительский каталог архивов, архивирование должно быть включено.
Синтаксис поиска по булевому типу
Механизм запросов поддерживает поиск по полям ( field: value
) и сложные логические выражения. Полный текст поддерживается как комбинация полей url, content и headers.
Хотя интерфейс API предназначен для непосредственного использования LLM, может быть полезно ознакомиться с синтаксисом поиска. Поисковые запросы, сгенерированные LLM, можно просматривать, но обычно они сворачиваются в пользовательском интерфейсе. Если вам нужно увидеть запрос, разверните MCP collapable.
Примеры запросов
Пример запроса | Описание |
---|---|
конфиденциальность | полнотекстовое совпадение по одному ключевому слову |
"политика конфиденциальности" | полное совпадение точной фразы |
граница* | полнотекстовый подстановочный знак соответствует результатам, начинающимся с borderar (граница, границы) |
идентификатор: 12345 | Поле идентификатора соответствует определенному ресурсу по идентификатору |
URL-адрес: example.com/* | поле url соответствует результатам с URL, содержащим example.com/ |
тип: html | поле типа соответствует только для HTML-страниц |
статус: 200 | поле статуса соответствует определенным кодам статуса HTTP (равным 200) |
статус: >=400 | поле статуса соответствует определенному коду статуса HTTP (больше или равно 400) |
содержание: h1 | поле содержимого соответствует содержимому (тело ответа HTTP, часто, но не всегда, HTML) |
заголовки: текст/xml | поле заголовков соответствует заголовкам HTTP-ответа |
Политика конфиденциальности И | полный текст соответствует обоим |
политика конфиденциальности ИЛИ | полный текст соответствует либо |
политика НЕ конфиденциальность | полный текст соответствует политикам, не содержащим конфиденциальности |
(логин ИЛИ вход) И форма | полный текст соответствует полному тексту входа или входа с помощью формы |
тип: html И статус: 200 | полный текст соответствует только HTML-страницам с успешным HTTP-запросом |
Определения поиска по полю
Поиск по полю обеспечивает точность поиска, позволяя вам указать, какие столбцы поискового индекса фильтровать. Вместо поиска по всему контенту вы можете ограничить свой запрос определенными атрибутами, такими как URL-адреса, заголовки или тело контента. Такой подход повышает эффективность при поиске определенных атрибутов или шаблонов в данных сканирования.
Поле | Описание |
---|---|
идентификатор | идентификатор базы данных |
URL-адрес | URL-адрес ресурса |
тип | пронумерованный список типов (см. таблицу типов) |
статус | Коды ответов HTTP |
заголовки | Заголовки HTTP-ответа |
содержание | Тело HTTP — HTML, CSS, JS и т. д. |
Типы контента
Сканирование содержит множество типов ресурсов помимо HTML-страниц. Поиск по полю type:
позволяет фильтровать по широким группам типов контента, что особенно полезно при фильтрации изображений без сложных запросов на расширение. Например, вы можете выполнить поиск по type: html NOT content: login
, чтобы найти страницы без «login», или type: img
чтобы проанализировать ресурсы изображений. В таблице ниже перечислены все поддерживаемые типы контента в поисковой системе.
Тип | Описание |
---|---|
html | веб-страницы |
фрейм | фреймы |
имг | веб-изображения |
аудио | веб-аудиофайлы |
видео | веб-видеофайлы |
шрифт | файлы веб-шрифтов |
стиль | Таблицы стилей CSS |
сценарий | JavaScript-файлы |
rss | RSS-каналы синдикации |
текст | простой текстовый контент |
PDF-файлы | |
док | Документы MS Word |
другой | без рубрики |
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Устраните разрыв между вашим веб-сканированием и языковыми моделями ИИ. С mcp-server-webcrawl ваш клиент ИИ фильтрует и анализирует веб-контент под вашим руководством или автономно, извлекая информацию из вашего веб-контента.
Поддерживает сканеры WARC, wget, InterroBot, Katana и SiteOne.
Related MCP Servers
- -securityAlicense-qualityCrawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.Last updated -81PythonMIT License
- -securityAlicense-qualityAn MCP server that helps AI assistants access text content from websites that implement bot detection, bridging the gap between what you can see in your browser and what the AI can access.Last updated -1PythonApache 2.0
- -securityFlicense-qualityAn MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.Last updated -Python
- -security-license-qualityAn MCP server that enhances Brave Search results by using Puppeteer to extract full webpage content and explore linked pages, enabling AI assistants to perform comprehensive web research with configurable depth.Last updated -1TypeScript