Skip to main content
Glama

MD Webcrawl MCP

by jmh108

MD MCP ウェブクローラー プロジェクト

ウェブサイトのコンテンツを抽出して保存するための Python ベースの MCP ( https://modelcontextprotocol.io/introduction ) ウェブ クローラー。

特徴

  • ウェブサイトのコンテンツを抽出し、マークダウンファイルとして保存する
  • ウェブサイトの構造とリンクをマップする
  • 複数のURLのバッチ処理
  • 設定可能な出力ディレクトリ

インストール

  1. リポジトリをクローンします。
git clone https://github.com/yourusername/webcrawler.git cd webcrawler
  1. 依存関係をインストールします:
pip install -r requirements.txt
  1. オプション: 環境変数を設定します。
export OUTPUT_PATH=./output # Set your preferred output directory

出力

クロールされたコンテンツは、指定された出力ディレクトリにマークダウン形式で保存されます。

構成

サーバーは環境変数を通じて設定できます:

  • OUTPUT_PATH : 保存されたファイルのデフォルトの出力ディレクトリ
  • MAX_CONCURRENT_REQUESTS : 最大並列リクエスト数(デフォルト: 5)
  • REQUEST_TIMEOUT : リクエストのタイムアウト(秒)(デフォルト: 30)

クロード・セットアップ

FastMCPでインストールするfastmcp install server.py

または、fastmcp で直接実行するためのユーザーカスタム設定

"Crawl Server": { "command": "fastmcp", "args": [ "run", "/Users/mm22/Dev_Projekte/servers-main/src/Webcrawler/server.py" ], "env": { "OUTPUT_PATH": "/Users/user/Webcrawl" }

発達

ライブ開発

fastmcp dev server.py --with-editable .

デバッグ

デバッグにはhttps://modelcontextprotocol.io/docs/tools/inspectorを使用すると便利です。

例1: コンテンツの抽出と保存

mcp call extract_content --url "https://example.com" --output_path "example.md"

例2: コンテンツインデックスを作成する

mcp call scan_linked_content --url "https://example.com" | \ mcp call create_index --content_map - --output_path "index.md"

貢献

  1. リポジトリをフォークする
  2. 機能ブランチを作成する ( git checkout -b feature/AmazingFeature )
  3. 変更をコミットします( git commit -m 'Add some AmazingFeature'
  4. ブランチにプッシュする ( git push origin feature/AmazingFeature )
  5. プルリクエストを開く

ライセンス

MITライセンスに基づいて配布されています。詳細についてはLICENSEをご覧ください。

要件

  • Python 3.7以上
  • FastMCP (uv pip install fastmcp)
  • requirements.txt にリストされている依存関係
-
security - not tested
A
license - permissive license
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

ウェブサイトをクロールしてコンテンツを抽出し、マークダウン ファイルとして保存する Python ベースの MCP サーバー。ウェブサイトの構造とリンクをマッピングする機能も備えています。

  1. 特徴
    1. インストール
      1. 出力
        1. 構成
          1. クロード・セットアップ
            1. 発達
              1. ライブ開発
              2. デバッグ
              1. 例1: コンテンツの抽出と保存
              2. 例2: コンテンツインデックスを作成する
            2. 貢献
              1. ライセンス
                1. 要件

                  Related MCP Servers

                  • A
                    security
                    A
                    license
                    A
                    quality
                    A powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.
                    Last updated -
                    4
                    1,285
                    32
                    TypeScript
                    MIT License
                    • Apple
                    • Linux
                  • A
                    security
                    A
                    license
                    A
                    quality
                    A TypeScript-based MCP server utilizing the UseScraper API to provide web scraping capabilities, allowing users to extract content from webpages in various formats.
                    Last updated -
                    1
                    2
                    JavaScript
                    MIT License
                    • Apple
                  • -
                    security
                    A
                    license
                    -
                    quality
                    A Python implementation of an MCP server that extracts webpage content, removes ads and non-essential elements, and transforms it into clean, LLM-optimized Markdown.
                    Last updated -
                    2
                    Python
                    MIT License
                    • Linux
                    • Apple
                  • A
                    security
                    F
                    license
                    A
                    quality
                    An MCP server that enables AI clients like Cursor, Windsurf, and Claude Desktop to access web content in markdown format, providing web unblocking and searching capabilities.
                    Last updated -
                    2
                    583
                    30
                    JavaScript
                    • Apple

                  View all related MCP servers

                  MCP directory API

                  We provide all the information about MCP servers via our MCP API.

                  curl -X GET 'https://glama.ai/api/mcp/v1/servers/jmh108/md-webcrawl-mcp'

                  If you have feedback or need assistance with the MCP directory API, please join our Discord server