MD MCP ウェブクローラー プロジェクト
ウェブサイトのコンテンツを抽出して保存するための Python ベースの MCP ( https://modelcontextprotocol.io/introduction ) ウェブ クローラー。
特徴
ウェブサイトのコンテンツを抽出し、マークダウンファイルとして保存する
ウェブサイトの構造とリンクをマップする
複数のURLのバッチ処理
設定可能な出力ディレクトリ
Related MCP server: UseScraper MCP Server
インストール
リポジトリをクローンします。
依存関係をインストールします:
オプション: 環境変数を設定します。
出力
クロールされたコンテンツは、指定された出力ディレクトリにマークダウン形式で保存されます。
構成
サーバーは環境変数を通じて設定できます:
OUTPUT_PATH: 保存されたファイルのデフォルトの出力ディレクトリMAX_CONCURRENT_REQUESTS: 最大並列リクエスト数(デフォルト: 5)REQUEST_TIMEOUT: リクエストのタイムアウト(秒)(デフォルト: 30)
クロード・セットアップ
FastMCPでインストールするfastmcp install server.py
または、fastmcp で直接実行するためのユーザーカスタム設定
発達
ライブ開発
デバッグ
デバッグにはhttps://modelcontextprotocol.io/docs/tools/inspectorを使用すると便利です。
例
例1: コンテンツの抽出と保存
例2: コンテンツインデックスを作成する
貢献
リポジトリをフォークする
機能ブランチを作成する (
git checkout -b feature/AmazingFeature)変更をコミットします(
git commit -m 'Add some AmazingFeature')ブランチにプッシュする (
git push origin feature/AmazingFeature)プルリクエストを開く
ライセンス
MITライセンスに基づいて配布されています。詳細についてはLICENSEをご覧ください。
要件
Python 3.7以上
FastMCP (uv pip install fastmcp)
requirements.txt にリストされている依存関係