local-only server
The server can only run on the client’s local machine because it depends on local resources.
Integrations
Allows formatting scraped web content into structured markdown, with support for including images and saving formatted results to files
Uses Puppeteer to perform web scraping with capabilities like smart scrolling for single-page applications and content analysis to determine optimal scraping approaches
🔍 Prysm MCP サーバー
Prysm MCP (モデル コンテキスト プロトコル) サーバーにより、Claude などの AI アシスタントは高い精度と柔軟性で Web コンテンツをスクレイピングできるようになります。
✨ 特徴
- 🎯複数のスクレイピングモード:フォーカス(高速)、バランス(デフォルト)、ディープ(徹底)モードから選択できます
- 🧠コンテンツ分析:URLを分析して最適なスクレイピング手法を決定します
- 📄フォーマットの柔軟性: 結果をマークダウン、HTML、JSON としてフォーマットします
- 🖼️画像サポート: オプションで画像を抽出したりダウンロードしたりすることもできます
- 🔍スマートスクロール: シングルページアプリケーションのスクロール動作を設定します
- 📱レスポンシブ:さまざまなウェブサイトのレイアウトや構造に適応します
- 💾ファイル出力: フォーマットされた結果を任意のディレクトリに保存します
🚀 クイックスタート
インストール
統合ガイド
一般的な MCP 互換アプリケーション向けの詳細な統合ガイドを提供しています。
使用法
Prysm MCP サーバーをセットアップする方法は複数あります。
mcp.json 構成の使用
上記のガイドに従って、適切な場所にmcp.json
ファイルを作成します。
🛠️ ツール
サーバーは次のツールを提供します。
scrapeFocused
速度を重視して最適化された高速 Web スクレイピング (スクロールが少なく、メイン コンテンツのみ)。
利用可能なパラメータ:
url
(必須): スクレイピングするURLmaxScrolls
(オプション):スクロール試行の最大回数(デフォルト:5)scrollDelay
(オプション): スクロール間の遅延時間(ミリ秒)(デフォルト: 1000)scrapeImages
(オプション): 結果に画像を含めるかどうかdownloadImages
(オプション): 画像をローカルにダウンロードするかどうかmaxImages
(オプション): 抽出する画像の最大数output
(オプション):ダウンロードした画像の出力ディレクトリ
scrapeBalanced
優れたカバレッジと適切な速度を備えたバランスの取れた Web スクレイピング アプローチ。
利用可能なパラメータ:
scrapeFocused
と同じだが、デフォルトが異なるmaxScrolls
デフォルト: 10scrollDelay
デフォルト: 2000- 合計スクレイピング時間を制限するための
timeout
パラメータを追加します(デフォルト: 30000ms)
scrapeDeep
最大限に抽出する Web スクレイピング (遅いが徹底的)。
利用可能なパラメータ:
scrapeFocused
と同じだが、デフォルトが異なるmaxScrolls
デフォルト: 20scrollDelay
デフォルト: 3000maxImages
デフォルト: 100
formatResult
スクレイピングしたデータをさまざまな構造化形式 (マークダウン、HTML、JSON) にフォーマットします。
利用可能なパラメータ:
data
(必須): フォーマットするスクレイピングデータformat
(必須): 出力形式 - 「markdown」、「html」、または「json」includeImages
(オプション): 出力に画像を含めるかどうか (デフォルト: true)output
(オプション): フォーマットされた結果を保存するファイルパス
出力パスを指定して、フォーマットされた結果をファイルに保存することもできます。
⚙️ 構成
出力ディレクトリ
デフォルトでは、フォーマットされた結果を保存すると、ファイルは~/prysm-mcp/output/
に保存されます。これは以下の2つの方法でカスタマイズできます。
- 環境変数: 環境変数を希望のディレクトリに設定します。
- ツールパラメータ: ツールを呼び出すときに出力パスを直接指定します。
- MCP 構成: MCP 構成ファイル (例:
.cursor/mcp.json
) で、次の環境変数を設定できます。
PRYSM_IMAGE_OUTPUT_DIR
が指定されていない場合は、デフォルトでPRYSM_OUTPUT_DIR
内のimages
という名前のサブフォルダーになります。
相対パスまたはファイル名のみを指定した場合、設定された出力ディレクトリを基準に保存されます。
パス処理ルール
formatResult
ツールは、次の方法でパスを処理します。
- 絶対パス: 提供されたとおりに使用されます (
/home/user/file.md
) - 相対パス: 設定された出力ディレクトリ (
subfolder/file.md
) を基準に保存されます。 - ファイル名のみ: 設定された出力ディレクトリ(
output.md
)に保存されます - ディレクトリパス: パスがディレクトリを指している場合、ファイル名はコンテンツとタイムスタンプに基づいて自動生成されます。
🏗️ 開発
npx経由で実行
インストールせずに npx を使用してサーバーを直接実行できます。
📋 ライセンス
マサチューセッツ工科大学
🙏 クレジット
ピンクピクセル開発
You must be authenticated.
複数のスクレイピング モードとコンテンツ フォーマット オプションをサポートし、AI アシスタントが Web コンテンツを高精度かつ柔軟にスクレイピングできるようにするモデル コンテキスト プロトコル サーバー。
Related Resources
Appeared in Searches
- Scraping a marketplace to generate a JSON file with name, description, and link
- Search Engine Optimization (SEO) Resources
- Using tools to analyze a customer's website for technical stack, traffic, and search queries
- Accessing a webcheck server to retrieve JSON data for website analysis
- Tools and techniques for scraping website data, creating event calendars, and building YouTube playlists