Skip to main content
Glama
jmh108

MD Webcrawl MCP

by jmh108

MD MCP ウェブクローラー プロジェクト

ウェブサイトのコンテンツを抽出して保存するための Python ベースの MCP ( https://modelcontextprotocol.io/introduction ) ウェブ クローラー。

特徴

  • ウェブサイトのコンテンツを抽出し、マークダウンファイルとして保存する

  • ウェブサイトの構造とリンクをマップする

  • 複数のURLのバッチ処理

  • 設定可能な出力ディレクトリ

Related MCP server: UseScraper MCP Server

インストール

  1. リポジトリをクローンします。

git clone https://github.com/yourusername/webcrawler.git
cd webcrawler
  1. 依存関係をインストールします:

pip install -r requirements.txt
  1. オプション: 環境変数を設定します。

export OUTPUT_PATH=./output  # Set your preferred output directory

出力

クロールされたコンテンツは、指定された出力ディレクトリにマークダウン形式で保存されます。

構成

サーバーは環境変数を通じて設定できます:

  • OUTPUT_PATH : 保存されたファイルのデフォルトの出力ディレクトリ

  • MAX_CONCURRENT_REQUESTS : 最大並列リクエスト数(デフォルト: 5)

  • REQUEST_TIMEOUT : リクエストのタイムアウト(秒)(デフォルト: 30)

クロード・セットアップ

FastMCPでインストールするfastmcp install server.py

または、fastmcp で直接実行するためのユーザーカスタム設定

"Crawl Server": {
      "command": "fastmcp",
      "args": [
        "run",
        "/Users/mm22/Dev_Projekte/servers-main/src/Webcrawler/server.py"
      ],
      "env": {
        "OUTPUT_PATH": "/Users/user/Webcrawl"
      }

発達

ライブ開発

fastmcp dev server.py --with-editable .

デバッグ

デバッグにはhttps://modelcontextprotocol.io/docs/tools/inspectorを使用すると便利です。

例1: コンテンツの抽出と保存

mcp call extract_content --url "https://example.com" --output_path "example.md"

例2: コンテンツインデックスを作成する

mcp call scan_linked_content --url "https://example.com" | \
  mcp call create_index --content_map - --output_path "index.md"

貢献

  1. リポジトリをフォークする

  2. 機能ブランチを作成する ( git checkout -b feature/AmazingFeature )

  3. 変更をコミットします( git commit -m 'Add some AmazingFeature'

  4. ブランチにプッシュする ( git push origin feature/AmazingFeature )

  5. プルリクエストを開く

ライセンス

MITライセンスに基づいて配布されています。詳細についてはLICENSEをご覧ください。

要件

  • Python 3.7以上

  • FastMCP (uv pip install fastmcp)

  • requirements.txt にリストされている依存関係

-
security - not tested
A
license - permissive license
-
quality - not tested

Resources

Looking for Admin?

Admins can modify the Dockerfile, update the server description, and track usage metrics. If you are the server author, to access the admin panel.

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/jmh108/md-webcrawl-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server