WebScraping.AI MCPサーバー
Web データ抽出機能のためにWebScraping.AIと統合するモデル コンテキスト プロトコル (MCP) サーバー実装。
特徴
ウェブページの内容に関する質問への回答
ウェブページからの構造化データ抽出
JavaScript レンダリングによる HTML コンテンツの取得
ウェブページからのプレーンテキスト抽出
CSSセレクタベースのコンテンツ抽出
国を選択できる複数のプロキシタイプ(データセンター、住宅)
ヘッドレス Chrome/Chromium を使用した JavaScript レンダリング
レート制限による同時リクエスト管理
対象ページでのカスタム JavaScript 実行
デバイスエミュレーション(デスクトップ、モバイル、タブレット)
アカウント使用状況の監視
インストール
npxで実行
手動インストール
カーソルでの設定
注: カーソルバージョン 0.45.6 以上が必要です
WebScraping.AI MCP サーバーは、Cursor で 2 つの方法で構成できます。
プロジェクト固有の構成(チーム プロジェクトに推奨): プロジェクト ディレクトリに
.cursor/mcp.jsonファイルを作成します。{ "servers": { "webscraping-ai": { "type": "command", "command": "npx -y webscraping-ai-mcp", "env": { "WEBSCRAPING_AI_API_KEY": "your-api-key", "WEBSCRAPING_AI_CONCURRENCY_LIMIT": "5" } } } }グローバル構成(すべてのプロジェクトでの個人使用): 上記と同じ構成形式で、ホーム ディレクトリに
~/.cursor/mcp.jsonファイルを作成します。
Windows を使用していて問題が発生している場合は、コマンドとして
cmd /c "set WEBSCRAPING_AI_API_KEY=your-api-key && npx -y webscraping-ai-mcp"を使用してみてください。
この構成により、Web スクレイピング タスクに関連する場合に、WebScraping.AI ツールが Cursor の AI エージェントで自動的に使用できるようになります。
Claude Desktopで実行中
これをclaude_desktop_config.jsonに追加します:
構成
環境変数
必須
WEBSCRAPING_AI_API_KEY: WebScraping.AI APIキーすべての操作に必要
WebScraping.AIからAPIキーを取得する
オプション構成
WEBSCRAPING_AI_CONCURRENCY_LIMIT: 同時リクエストの最大数(デフォルト:5)WEBSCRAPING_AI_DEFAULT_PROXY_TYPE: 使用するプロキシの種類(デフォルト:residential)WEBSCRAPING_AI_DEFAULT_JS_RENDERING: JavaScript レンダリングを有効/無効にする (デフォルト:true)WEBSCRAPING_AI_DEFAULT_TIMEOUT: ウェブページの最大取得時間(ミリ秒)(デフォルト:15000、最大:30000)WEBSCRAPING_AI_DEFAULT_JS_TIMEOUT: JavaScript レンダリングの最大時間(ミリ秒)(デフォルト:2000)
設定例
標準的な使用法:
利用可能なツール
1. 質問ツール ( webscraping_ai_question )
Web ページのコンテンツについて質問します。
応答例:
2. フィールドツール( webscraping_ai_fields )
指示に基づいて Web ページから構造化データを抽出します。
応答例:
3. HTMLツール( webscraping_ai_html )
JavaScript レンダリングを使用して Web ページの完全な HTML を取得します。
応答例:
4. テキストツール ( webscraping_ai_text )
Web ページから表示されているテキスト コンテンツを抽出します。
応答例:
5. 選択されたツール ( webscraping_ai_selected )
CSS セレクターを使用して特定の要素からコンテンツを抽出します。
応答例:
6. 複数選択ツール ( webscraping_ai_selected_multiple )
CSS セレクターを使用して複数の要素からコンテンツを抽出します。
応答例:
7. アカウントツール( webscraping_ai_account )
WebScraping.AI アカウントに関する情報を取得します。
応答例:
すべてのツールに共通するオプション
次のオプションは、すべてのスクレイピング ツールで使用できます。
timeout: ウェブページの最大取得時間(ミリ秒)(デフォルトは15000、最大値は30000)js: ヘッドレスブラウザを使用してページ上の JavaScript を実行します(デフォルトでは true)js_timeout: JavaScript レンダリングの最大時間(ミリ秒)(デフォルトは 2000)wait_for: ページコンテンツを返す前に待機する CSS セレクタproxy: プロキシの種類、データセンターまたは住宅(デフォルトは住宅)country: 使用するプロキシの国(デフォルトは米国)。サポートされている国: us、gb、de、it、fr、ca、es、ru、jp、kr、incustom_proxy: 「 http://user:password@host:port 」形式の独自のプロキシ URLdevice: デバイスエミュレーションの種類。サポートされる値: デスクトップ、モバイル、タブレットerror_on_404: 対象ページの 404 HTTP ステータスでエラーを返します (デフォルトでは false)error_on_redirect: 対象ページでのリダイレクト時にエラーを返す(デフォルトは false)js_script: 対象ページで実行するカスタム JavaScript コード
エラー処理
サーバーは堅牢なエラー処理を提供します。
一時的なエラーの自動再試行
バックオフによるレート制限の処理
詳細なエラーメッセージ
ネットワークの回復力
エラー応答の例:
LLMとの統合
このサーバーはモデルコンテキストプロトコル(MCP)を実装しており、MCP対応のLLMプラットフォームと互換性があります。これらのツールをWebスクレイピングタスクに使用するようにLLMを設定できます。
例: MCP を使用した Claude の設定
発達
貢献
リポジトリをフォークする
機能ブランチを作成する
テストを実行:
npm testプルリクエストを送信する
ライセンス
MITライセンス - 詳細はLICENSEファイルを参照
Related MCP Servers
- -security-license-qualityEmpowers AI agents to perform web browsing, automation, and scraping tasks with minimal supervision using natural language instructions and Selenium.Last updated -6Apache 2.0
- Apache 2.0
- Asecurity-licenseAqualityA powerful tool for fetching and extracting text content from web pages and APIs, supporting web scraping, REST API requests, and Google Custom Search integration.Last updated -49MIT License
- Asecurity-licenseAqualityScrape documentation for libraries and API'sLast updated -11