MD Webcrawl MCP

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Allows for cloning the repository from GitHub as part of the installation process

  • Extracts website content and saves it in markdown format, enabling structured documentation from crawled websites

MD MCP ウェブクローラー プロジェクト

ウェブサイトのコンテンツを抽出して保存するための Python ベースの MCP ( https://modelcontextprotocol.io/introduction ) ウェブ クローラー。

特徴

  • ウェブサイトのコンテンツを抽出し、マークダウンファイルとして保存する
  • ウェブサイトの構造とリンクをマップする
  • 複数のURLのバッチ処理
  • 設定可能な出力ディレクトリ

インストール

  1. リポジトリをクローンします。
git clone https://github.com/yourusername/webcrawler.git cd webcrawler
  1. 依存関係をインストールします:
pip install -r requirements.txt
  1. オプション: 環境変数を設定します。
export OUTPUT_PATH=./output # Set your preferred output directory

出力

クロールされたコンテンツは、指定された出力ディレクトリにマークダウン形式で保存されます。

構成

サーバーは環境変数を通じて設定できます:

  • OUTPUT_PATH : 保存されたファイルのデフォルトの出力ディレクトリ
  • MAX_CONCURRENT_REQUESTS : 最大並列リクエスト数(デフォルト: 5)
  • REQUEST_TIMEOUT : リクエストのタイムアウト(秒)(デフォルト: 30)

クロード・セットアップ

FastMCPでインストールするfastmcp install server.py

または、fastmcp で直接実行するためのユーザーカスタム設定

"Crawl Server": { "command": "fastmcp", "args": [ "run", "/Users/mm22/Dev_Projekte/servers-main/src/Webcrawler/server.py" ], "env": { "OUTPUT_PATH": "/Users/user/Webcrawl" }

発達

ライブ開発

fastmcp dev server.py --with-editable .

デバッグ

デバッグにはhttps://modelcontextprotocol.io/docs/tools/inspectorを使用すると便利です。

例1: コンテンツの抽出と保存

mcp call extract_content --url "https://example.com" --output_path "example.md"

例2: コンテンツインデックスを作成する

mcp call scan_linked_content --url "https://example.com" | \ mcp call create_index --content_map - --output_path "index.md"

貢献

  1. リポジトリをフォークする
  2. 機能ブランチを作成する ( git checkout -b feature/AmazingFeature )
  3. 変更をコミットします( git commit -m 'Add some AmazingFeature'
  4. ブランチにプッシュする ( git push origin feature/AmazingFeature )
  5. プルリクエストを開く

ライセンス

MITライセンスに基づいて配布されています。詳細についてはLICENSEをご覧ください。

要件

  • Python 3.7以上
  • FastMCP (uv pip install fastmcp)
  • requirements.txt にリストされている依存関係
-
security - not tested
A
license - permissive license
-
quality - not tested

ウェブサイトをクロールしてコンテンツを抽出し、マークダウン ファイルとして保存する Python ベースの MCP サーバー。ウェブサイトの構造とリンクをマッピングする機能も備えています。

  1. Features
    1. Installation
      1. Output
        1. Configuration
          1. Claude Set-Up
            1. Development
              1. Live Development
              2. Debug
            2. Examples
              1. Example 1: Extract and Save Content
              2. Example 2: Create Content Index
            3. Contributing
              1. License
                1. Requirements
                  ID: saglkval3f