intercept-mcp
intercept-mcp
AIにウェブを読み込ませる機能を提供します。コマンド1つで、APIキーは不要です。
通常、AIがURLにアクセスすると403エラーやアクセス制限、あるいは生のHTMLの壁にぶつかることがありますが、interceptを使えば、ほぼ確実にコンテンツをクリーンなMarkdownとして取得し、すぐに利用できるようになります。
ツイート、YouTube動画(可能な場合はトランスクリプト付き)、arXiv論文、PDF、Wikipedia記事、GitHubリポジトリに対応しています。最初の戦略が失敗しても、最大10個の戦略を試してから諦めます。
Claude Code、Claude Desktop、Codex、Cursor、Windsurf、Clineなど、あらゆるMCPクライアントで動作します。
インストール
Claude Code
claude mcp add intercept -s user -- npx -y intercept-mcpCodex
codex mcp add intercept -- npx -y intercept-mcpCursor
Settings → MCP → Add Server:
{
"mcpServers": {
"intercept": {
"command": "npx",
"args": ["-y", "intercept-mcp"]
}
}
}Windsurf
Settings → MCP → Add Server → 上記と同じJSON設定を使用。
Claude Desktop
claude_desktop_config.json に以下を追加します:
{
"mcpServers": {
"intercept": {
"command": "npx",
"args": ["-y", "intercept-mcp"]
}
}
}その他のMCPクライアント
stdio MCPサーバーをサポートするクライアントであれば、npx -y intercept-mcp を実行できます。
fetch ツールを使用するのにAPIキーは不要です。
仕組み
URLは3つの段階で処理されます:
1. サイト固有のハンドラー
既知のURLパターンは、フォールバックパイプラインの前に専用ハンドラーへルーティングされます:
パターン | ハンドラー | 取得内容 |
| Twitter/X | ツイート本文、投稿者、メディア、エンゲージメント統計(サードパーティAPI経由) |
| YouTube | タイトル、チャンネル、再生時間、再生数、説明文、トランスクリプト(字幕が利用可能な場合) |
| arXiv | 論文メタデータ、著者、要約、カテゴリ |
| 抽出されたテキスト(テキストレイヤーを持つPDFのみ) | |
| Wikipedia | Wikimedia REST API経由のクリーンな記事コンテンツ |
| GitHub | 生のREADME.mdコンテンツ |
2. フォールバックパイプライン
ハンドラーが一致しない(またはハンドラーが何も返さない)場合、URLはマルチティアのパイプラインに入ります:
ティア | フェッチャー | 戦略 |
1 | Cloudflare Browser Rendering | JSレンダリング + Markdown抽出(オプション、APIトークンが必要) |
1 | Jina Reader | クリーンなMarkdown抽出サービス |
2 | Wayback + Codetabs | アーカイブ版 + CORSプロキシ(並列実行) |
3 | Raw fetch | ブラウザヘッダー付きの直接GET + TurndownによるMarkdown変換 |
3 | Stealth fetch | got-scrapingによるブラウザTLSフィンガープリント偽装(オプトイン、下記参照) |
4 | RSS, CrossRef, Semantic Scholar, HN, Reddit | メタデータ / ディスカッションのフォールバック |
5 | OG Meta | Open Graphタグ(保証されたフォールバック) |
ティア2のフェッチャーは並列実行されます。両方成功した場合は、品質の高い結果が採用されます。他のすべてのティアは順次実行されます。
すべてのフェッチャーは、プレーンテキストではなく、Turndownを介して適切な Markdown(見出し、リンク、太字、テーブル、コードブロック)を返します。
3. キャッシュ
結果はメモリ内にTTL付きでキャッシュされます(成功時は30分、失敗時は5分)。LRUエビクションにより最大100エントリまで保持されます。失敗したURLもキャッシュされ、既知のデッドURLへの再試行を防ぎます。
ツール
fetch
URLを取得し、そのコンテンツをクリーンなMarkdownとして返します。
url(string, 必須) — 取得するURLmaxTier(number, オプション, 1-5) — 速度重視の場合、このティアで停止します
search
ウェブを検索し、結果を返します。
query(string, 必須) — 検索クエリcount(number, オプション, 1-20, デフォルト5) — 結果の数
BRAVE_API_KEY が設定されている場合はBrave Search APIを、SEARXNG_URL が設定されている場合はSearXNGを、それ以外の場合は最後の手段としてDuckDuckGoを使用します。
プロンプト
research-topic
トピックを検索し、複数のソースから要約を取得するために上位の結果を取得します。
topic(string) — リサーチするトピックdepth(string, デフォルト "3") — 取得する上位結果の数
extract-article
URLを取得し、コンテンツから重要なポイントを抽出します。
url(string) — 取得して要約するURL
環境変数
変数 | 必須 | 説明 |
| いいえ | 検索用の Brave Search API キー |
| いいえ | セルフホストしたSearXNGインスタンスのURL(推奨) |
| いいえ | 「Browser Rendering - Edit」権限を持つCloudflare APIトークン |
| いいえ | CloudflareアカウントID( |
| いいえ |
|
検索: DuckDuckGoのフォールバックがありますが、レート制限があり信頼性が低いです。本番環境で使用する場合は、SearXNG をセルフホストして SEARXNG_URL を設定するか、Brave Search APIキー を取得してください。
取得: キーなしで動作します。JavaScriptを多用するページ(SPA、Reactサイトなど)に対してCloudflare Browser Renderingを有効にするには、CF_API_TOKEN と CF_ACCOUNT_ID を設定してください。
ステルスフェッチャー (USE_STEALTH_FETCH)
自己責任で使用してください。 これを有効にすると、got-scraping を使用して、実際のブラウザのTLSフィンガープリント(Chrome/Firefoxの暗号スイート、HTTP/2設定、ヘッダー順序など)を偽装するフェッチャーが追加されます。これにより、自動リクエストをブロックするサイトのボット検知やCAPTCHAを回避できる場合があります。
このフェッチャーは、通常のRaw fetchの後のティア3で実行されます。Raw fetchがブロックされた場合(CAPTCHA、Cloudflareチャレンジ、403エラーなど)、ステルスフェッチャーがブラウザ偽装を行って再試行します。
これは一部のウェブサイトの利用規約に違反する可能性があります。 intercept-mcpの作者は、この機能の使用方法について一切の責任を負いません。デフォルトでは無効になっており、明示的に有効にする必要があります。
SearXNGのセルフホスト
信頼性の高い検索を行うには、Dockerを使用してSearXNGをセルフホストしてください。設定は リポジトリ に含まれています:
git clone https://github.com/bighippoman/intercept-mcp.git
cd intercept-mcp/searxng && docker compose up -dその後、SEARXNG_URL=http://localhost:8888 を設定します。レート制限やCAPTCHAはなく、Google + Bing + DuckDuckGo + Wikipedia + Braveを統合します。
または、既存のSearXNGインスタンスを使用することもできます。そのURLを SEARXNG_URL に設定するだけです。
URLの正規化
入力されたURLは自動的にクリーンアップされます:
60以上のトラッキングパラメータ(UTM、クリックID、アナリティクス、A/Bテストなど)を削除
ハッシュフラグメントを削除
HTTPSにアップグレード
AMPアーティファクトをクリーンアップ
機能的なパラメータ(
ref,format,page,offset,limit)は保持
コンテンツ品質の検出
各フェッチャーの結果は品質スコアが付けられます。以下の場合、自動的に失敗とみなされます:
CAPTCHA / Cloudflareチャレンジ
ログインウォール
本文にHTTPエラーページが含まれる場合
コンテンツが200文字未満の場合
要件
Node.js >= 18
基本的な使用にはAPIキー不要
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/bighippoman/intercept-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server