MD MCP ウェブクローラー プロジェクト
ウェブサイトのコンテンツを抽出して保存するための Python ベースの MCP ( https://modelcontextprotocol.io/introduction ) ウェブ クローラー。
特徴
ウェブサイトのコンテンツを抽出し、マークダウンファイルとして保存する
ウェブサイトの構造とリンクをマップする
複数のURLのバッチ処理
設定可能な出力ディレクトリ
Related MCP server: UseScraper MCP Server
インストール
リポジトリをクローンします。
git clone https://github.com/yourusername/webcrawler.git
cd webcrawler依存関係をインストールします:
pip install -r requirements.txtオプション: 環境変数を設定します。
export OUTPUT_PATH=./output # Set your preferred output directory出力
クロールされたコンテンツは、指定された出力ディレクトリにマークダウン形式で保存されます。
構成
サーバーは環境変数を通じて設定できます:
OUTPUT_PATH: 保存されたファイルのデフォルトの出力ディレクトリMAX_CONCURRENT_REQUESTS: 最大並列リクエスト数(デフォルト: 5)REQUEST_TIMEOUT: リクエストのタイムアウト(秒)(デフォルト: 30)
クロード・セットアップ
FastMCPでインストールするfastmcp install server.py
または、fastmcp で直接実行するためのユーザーカスタム設定
"Crawl Server": {
"command": "fastmcp",
"args": [
"run",
"/Users/mm22/Dev_Projekte/servers-main/src/Webcrawler/server.py"
],
"env": {
"OUTPUT_PATH": "/Users/user/Webcrawl"
}発達
ライブ開発
fastmcp dev server.py --with-editable .デバッグ
デバッグにはhttps://modelcontextprotocol.io/docs/tools/inspectorを使用すると便利です。
例
例1: コンテンツの抽出と保存
mcp call extract_content --url "https://example.com" --output_path "example.md"例2: コンテンツインデックスを作成する
mcp call scan_linked_content --url "https://example.com" | \
mcp call create_index --content_map - --output_path "index.md"貢献
リポジトリをフォークする
機能ブランチを作成する (
git checkout -b feature/AmazingFeature)変更をコミットします(
git commit -m 'Add some AmazingFeature')ブランチにプッシュする (
git push origin feature/AmazingFeature)プルリクエストを開く
ライセンス
MITライセンスに基づいて配布されています。詳細についてはLICENSEをご覧ください。
要件
Python 3.7以上
FastMCP (uv pip install fastmcp)
requirements.txt にリストされている依存関係
This server cannot be installed
Resources
Looking for Admin?
Admins can modify the Dockerfile, update the server description, and track usage metrics. If you are the server author, to access the admin panel.