WebScraping.AI MCPサーバー
Web データ抽出機能のためにWebScraping.AIと統合するモデル コンテキスト プロトコル (MCP) サーバー実装。
特徴
- ウェブページの内容に関する質問への回答
- ウェブページからの構造化データ抽出
- JavaScript レンダリングによる HTML コンテンツの取得
- ウェブページからのプレーンテキスト抽出
- CSSセレクタベースのコンテンツ抽出
- 国を選択できる複数のプロキシタイプ(データセンター、住宅)
- ヘッドレス Chrome/Chromium を使用した JavaScript レンダリング
- レート制限による同時リクエスト管理
- 対象ページでのカスタム JavaScript 実行
- デバイスエミュレーション(デスクトップ、モバイル、タブレット)
- アカウント使用状況の監視
インストール
npxで実行
手動インストール
カーソルでの設定
注: カーソルバージョン 0.45.6 以上が必要です
WebScraping.AI MCP サーバーは、Cursor で 2 つの方法で構成できます。
- プロジェクト固有の構成(チーム プロジェクトに推奨): プロジェクト ディレクトリに
.cursor/mcp.json
ファイルを作成します。 - グローバル構成(すべてのプロジェクトでの個人使用): 上記と同じ構成形式で、ホーム ディレクトリに
~/.cursor/mcp.json
ファイルを作成します。
Windows を使用していて問題が発生している場合は、コマンドとして
cmd /c "set WEBSCRAPING_AI_API_KEY=your-api-key && npx -y webscraping-ai-mcp"
を使用してみてください。
この構成により、Web スクレイピング タスクに関連する場合に、WebScraping.AI ツールが Cursor の AI エージェントで自動的に使用できるようになります。
Claude Desktopで実行中
これをclaude_desktop_config.json
に追加します:
構成
環境変数
必須
WEBSCRAPING_AI_API_KEY
: WebScraping.AI APIキー- すべての操作に必要
- WebScraping.AIからAPIキーを取得する
オプション構成
WEBSCRAPING_AI_CONCURRENCY_LIMIT
: 同時リクエストの最大数(デフォルト:5
)WEBSCRAPING_AI_DEFAULT_PROXY_TYPE
: 使用するプロキシの種類(デフォルト:residential
)WEBSCRAPING_AI_DEFAULT_JS_RENDERING
: JavaScript レンダリングを有効/無効にする (デフォルト:true
)WEBSCRAPING_AI_DEFAULT_TIMEOUT
: ウェブページの最大取得時間(ミリ秒)(デフォルト:15000
、最大:30000
)WEBSCRAPING_AI_DEFAULT_JS_TIMEOUT
: JavaScript レンダリングの最大時間(ミリ秒)(デフォルト:2000
)
設定例
標準的な使用法:
利用可能なツール
1. 質問ツール ( webscraping_ai_question
)
Web ページのコンテンツについて質問します。
応答例:
2. フィールドツール( webscraping_ai_fields
)
指示に基づいて Web ページから構造化データを抽出します。
応答例:
3. HTMLツール( webscraping_ai_html
)
JavaScript レンダリングを使用して Web ページの完全な HTML を取得します。
応答例:
4. テキストツール ( webscraping_ai_text
)
Web ページから表示されているテキスト コンテンツを抽出します。
応答例:
5. 選択されたツール ( webscraping_ai_selected
)
CSS セレクターを使用して特定の要素からコンテンツを抽出します。
応答例:
6. 複数選択ツール ( webscraping_ai_selected_multiple
)
CSS セレクターを使用して複数の要素からコンテンツを抽出します。
応答例:
7. アカウントツール( webscraping_ai_account
)
WebScraping.AI アカウントに関する情報を取得します。
応答例:
すべてのツールに共通するオプション
次のオプションは、すべてのスクレイピング ツールで使用できます。
timeout
: ウェブページの最大取得時間(ミリ秒)(デフォルトは15000、最大値は30000)js
: ヘッドレスブラウザを使用してページ上の JavaScript を実行します(デフォルトでは true)js_timeout
: JavaScript レンダリングの最大時間(ミリ秒)(デフォルトは 2000)wait_for
: ページコンテンツを返す前に待機する CSS セレクタproxy
: プロキシの種類、データセンターまたは住宅(デフォルトは住宅)country
: 使用するプロキシの国(デフォルトは米国)。サポートされている国: us、gb、de、it、fr、ca、es、ru、jp、kr、incustom_proxy
: 「 http://user:password@host:port 」形式の独自のプロキシ URLdevice
: デバイスエミュレーションの種類。サポートされる値: デスクトップ、モバイル、タブレットerror_on_404
: 対象ページの 404 HTTP ステータスでエラーを返します (デフォルトでは false)error_on_redirect
: 対象ページでのリダイレクト時にエラーを返す(デフォルトは false)js_script
: 対象ページで実行するカスタム JavaScript コード
エラー処理
サーバーは堅牢なエラー処理を提供します。
- 一時的なエラーの自動再試行
- バックオフによるレート制限の処理
- 詳細なエラーメッセージ
- ネットワークの回復力
エラー応答の例:
LLMとの統合
このサーバーはモデルコンテキストプロトコル(MCP)を実装しており、MCP対応のLLMプラットフォームと互換性があります。これらのツールをWebスクレイピングタスクに使用するようにLLMを設定できます。
例: MCP を使用した Claude の設定
発達
貢献
- リポジトリをフォークする
- 機能ブランチを作成する
- テストを実行:
npm test
- プルリクエストを送信する
ライセンス
MITライセンス - 詳細はLICENSEファイルを参照
You must be authenticated.
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Webデータの抽出とスクレイピングのためのWebScraping.AI APIと対話する
Related MCP Servers
- AsecurityAlicenseAqualityA server that provides web scraping and intelligent content searching capabilities using the Firecrawl API, enabling AI agents to extract structured data from websites and perform content searches.Last updated -52TypeScriptMIT License
- AsecurityFlicenseAqualityA server that provides tools to scrape websites and extract structured data from them using Firecrawl's APIs, supporting both basic website scraping in multiple formats and custom schema-based data extraction.Last updated -2JavaScript
- -securityAlicense-qualityA Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.Last updated -16,506MIT License
- AsecurityAlicenseAqualityA Model Context Protocol server enabling AI assistants to scrape web content with high accuracy and flexibility, supporting multiple scraping modes and content formatting options.Last updated -42221TypeScriptMIT License