ドキュメントスクレーパー MCP サーバー
ドキュメントスクレイピング機能を提供するModel Context Protocol(MCP)サーバー。このサーバーは、jina.aiの変換サービスを使用して、WebベースのドキュメントをMarkdown形式に変換します。
特徴
- 任意のWeb URLからドキュメントをスクレイピングします
- HTMLドキュメントをマークダウン形式に変換します
- 変換されたドキュメントを指定された出力パスに保存します
- モデルコンテキストプロトコル(MCP)と統合
インストール
Smithery経由でインストール
Smithery経由で Claude Desktop 用の Doc Scraper を自動的にインストールするには:
npx -y @smithery/cli install @askjohngeorge/mcp-doc-scraper --client claude
- リポジトリをクローンします。
git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper
- 仮想環境を作成してアクティブ化します。
python -m venv venv
source venv/bin/activate # On Windows, use: venv\Scripts\activate
- 依存関係をインストールします。
使用法
サーバーは Python を使用して実行できます。
python -m mcp_doc_scraper
ツールの説明
サーバーは次の単一のツールを提供します:
- 名前:
scrape_docs
- 説明: URLからドキュメントをスクレイピングし、マークダウンとして保存します
- 入力パラメータ:
url
: スクレイピングするドキュメントのURLoutput_path
: マークダウンファイルを保存するパス
プロジェクト構造
doc_scraper/
├── __init__.py
├── __main__.py
└── server.py
依存関係
発達
開発環境をセットアップするには:
- 開発依存関係をインストールします。
pip install -r requirements.txt
- サーバーはモデルコンテキストプロトコル( MCP)を使用します。MCPのドキュメントをよくお読みください。
ライセンス
MITライセンス