Skip to main content
Glama

mcp-server-webcrawl

by pragmar

mcp-сервер-webcrawl

Устраните разрыв между вашим веб-сканированием и языковыми моделями ИИ с помощью Model Context Protocol (MCP). С mcp-server-webcrawl ваш клиент ИИ фильтрует и анализирует веб-контент под вашим руководством или автономно. Сервер включает интерфейс полнотекстового поиска с поддержкой булевых значений, фильтрацию ресурсов по типу, статусу HTTP и т. д.

mcp-server-webcrawl предоставляет LLM полное меню для поиска вашего веб-контента и работает с различными веб-сканерами:

mcp-server-webcrawl — бесплатный и открытый исходный код, требует Claude Desktop и Python (>=3.10). Он устанавливается в командной строке с помощью pip install:

pip install mcp-server-webcrawl

Функции

  • Готов к использованию на рабочем столе Клода
  • Поддержка полнотекстового поиска
  • Фильтр по типу, статусу и т. д.
  • Совместимость с несколькими краулерами
  • Поддерживает расширенный/логический поиск и поиск по полям

Конфигурация МКП

Из меню Claude Desktop перейдите в File > Settings > Developer. Нажмите Edit Config, чтобы найти файл конфигурации, откройте его в редакторе по вашему выбору и измените пример, чтобы отразить ваш путь datasrc.

При необходимости вы можете настроить больше подключений mcp-server-webcrawl в разделе mcpServers.

{ "mcpServers": { "webcrawl": { "command": [varies by OS/env, see below], "args": [varies by crawler, see below] } } }

Пошаговые инструкции по настройке см. в руководствах по настройке .

Windows против macOS

Windows: команда установлена на "mcp-server-webcrawl"

macOS: команда установлена на абсолютный путь, т.е. значение $, которое mcp-server-webcrawl

Например:

"command": "/Users/yourusername/.local/bin/mcp-server-webcrawl",

Чтобы найти абсолютный путь к исполняемому файлу mcp-server-webcrawl в вашей системе:

  1. Открытый терминал
  2. Запустите which mcp-server-webcrawl
  3. Скопируйте полный возвращенный путь и используйте его в вашем конфигурационном файле.

wget (используя --mirror)

Аргумент datasrc должен быть установлен на родительский каталог зеркал.

"args": ["--crawler", "wget", "--datasrc", "/path/to/wget/archives/"]

ВАРК

Аргумент datasrc должен указывать на родительский каталог файлов WARC.

"args": ["--crawler", "warc", "--datasrc", "/path/to/warc/archives/"]

ИнтерроБот

Аргумент datasrc должен указывать прямой путь к базе данных.

"args": ["--crawler", "interrobot", "--datasrc", "/path/to/Documents/InterroBot/interrobot.v2.db"]

Катана

Аргумент datasrc должен быть установлен в каталог корневых хостов. Katana разделяет страницы и медиа по хостам, ./archives/example.com/example.com ожидается и подходит. Более сложные сайты расширяют данные сканирования в исходные каталоги хостов.

"args": ["--crawler", "katana", "--datasrc", "/path/to/katana/archives/"]

SiteOne (с использованием функции «Создать офлайн-сайт» )

Аргумент datasrc должен быть установлен на родительский каталог архивов, архивирование должно быть включено.

"args": ["--crawler", "siteone", "--datasrc", "/path/to/SiteOne/archives/"]

Синтаксис поиска по булевому типу

Механизм запросов поддерживает поиск по полям ( field: value ) и сложные логические выражения. Полный текст поддерживается как комбинация полей url, content и headers.

Хотя интерфейс API предназначен для непосредственного использования LLM, может быть полезно ознакомиться с синтаксисом поиска. Поисковые запросы, сгенерированные LLM, можно просматривать, но обычно они сворачиваются в пользовательском интерфейсе. Если вам нужно увидеть запрос, разверните MCP collapable.

Примеры запросов

Пример запросаОписание
конфиденциальностьполнотекстовое совпадение по одному ключевому слову
"политика конфиденциальности"полное совпадение точной фразы
граница*полнотекстовый подстановочный знак соответствует результатам, начинающимся с borderar (граница, границы)
идентификатор: 12345Поле идентификатора соответствует определенному ресурсу по идентификатору
URL-адрес: example.com/*поле url соответствует результатам с URL, содержащим example.com/
тип: htmlполе типа соответствует только для HTML-страниц
статус: 200поле статуса соответствует определенным кодам статуса HTTP (равным 200)
статус: >=400поле статуса соответствует определенному коду статуса HTTP (больше или равно 400)
содержание: h1поле содержимого соответствует содержимому (тело ответа HTTP, часто, но не всегда, HTML)
заголовки: текст/xmlполе заголовков соответствует заголовкам HTTP-ответа
Политика конфиденциальности Иполный текст соответствует обоим
политика конфиденциальности ИЛИполный текст соответствует либо
политика НЕ конфиденциальностьполный текст соответствует политикам, не содержащим конфиденциальности
(логин ИЛИ вход) И формаполный текст соответствует полному тексту входа или входа с помощью формы
тип: html И статус: 200полный текст соответствует только HTML-страницам с успешным HTTP-запросом

Определения поиска по полю

Поиск по полю обеспечивает точность поиска, позволяя вам указать, какие столбцы поискового индекса фильтровать. Вместо поиска по всему контенту вы можете ограничить свой запрос определенными атрибутами, такими как URL-адреса, заголовки или тело контента. Такой подход повышает эффективность при поиске определенных атрибутов или шаблонов в данных сканирования.

ПолеОписание
идентификаторидентификатор базы данных
URL-адресURL-адрес ресурса
типпронумерованный список типов (см. таблицу типов)
статусКоды ответов HTTP
заголовкиЗаголовки HTTP-ответа
содержаниеТело HTTP — HTML, CSS, JS и т. д.

Типы контента

Сканирование содержит множество типов ресурсов помимо HTML-страниц. Поиск по полю type: позволяет фильтровать по широким группам типов контента, что особенно полезно при фильтрации изображений без сложных запросов на расширение. Например, вы можете выполнить поиск по type: html NOT content: login , чтобы найти страницы без «login», или type: img чтобы проанализировать ресурсы изображений. В таблице ниже перечислены все поддерживаемые типы контента в поисковой системе.

ТипОписание
htmlвеб-страницы
фреймфреймы
имгвеб-изображения
аудиовеб-аудиофайлы
видеовеб-видеофайлы
шрифтфайлы веб-шрифтов
стильТаблицы стилей CSS
сценарийJavaScript-файлы
rssRSS-каналы синдикации
текстпростой текстовый контент
pdfPDF-файлы
докДокументы MS Word
другойбез рубрики
-
security - not tested
F
license - not found
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

Устраните разрыв между вашим веб-сканированием и языковыми моделями ИИ. С mcp-server-webcrawl ваш клиент ИИ фильтрует и анализирует веб-контент под вашим руководством или автономно, извлекая информацию из вашего веб-контента.

Поддерживает сканеры WARC, wget, InterroBot, Katana и SiteOne.

  1. Функции
    1. Конфигурация МКП
      1. Windows против macOS
      2. wget (используя --mirror)
      3. ВАРК
      4. ИнтерроБот
      5. Катана
      6. SiteOne (с использованием функции «Создать офлайн-сайт» )
    2. Синтаксис поиска по булевому типу
      1. Определения поиска по полю
        1. Типы контента

          Related MCP Servers

          • -
            security
            A
            license
            -
            quality
            Crawl4AI MCP Server is an intelligent information retrieval server offering robust search capabilities and LLM-optimized web content understanding, utilizing multi-engine search and intelligent content extraction to efficiently gather and comprehend internet information.
            Last updated -
            81
            Python
            MIT License
            • Apple
            • Linux
          • -
            security
            A
            license
            -
            quality
            An MCP server that helps AI assistants access text content from websites that implement bot detection, bridging the gap between what you can see in your browser and what the AI can access.
            Last updated -
            1
            Python
            Apache 2.0
          • -
            security
            F
            license
            -
            quality
            An MCP server that crawls API documentation websites and exposes their content to AI models, enabling them to search, browse, and reference API specifications.
            Last updated -
            Python
          • -
            security
            -
            license
            -
            quality
            An MCP server that enhances Brave Search results by using Puppeteer to extract full webpage content and explore linked pages, enabling AI assistants to perform comprehensive web research with configurable depth.
            Last updated -
            1
            TypeScript

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/pragmar/mcp_server_webcrawl'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server