intercept-mcp

AIにウェブを読み込ませる機能を提供します。コマンド1つで、APIキーは不要です。

通常、AIがURLにアクセスすると403エラーやアクセス制限、あるいは生のHTMLの壁にぶつかることがありますが、interceptを使えば、ほぼ確実にコンテンツをクリーンなMarkdownとして取得し、すぐに利用できるようになります。

ツイート、YouTube動画（可能な場合はトランスクリプト付き）、arXiv論文、PDF、Wikipedia記事、GitHubリポジトリに対応しています。最初の戦略が失敗しても、最大10個の戦略を試してから諦めます。

Claude Code、Claude Desktop、Codex、Cursor、Windsurf、Clineなど、あらゆるMCPクライアントで動作します。

インストール

Claude Code

claude mcp add intercept -s user -- npx -y intercept-mcp

Codex

codex mcp add intercept -- npx -y intercept-mcp

Cursor

Settings → MCP → Add Server:

{
  "mcpServers": {
    "intercept": {
      "command": "npx",
      "args": ["-y", "intercept-mcp"]
    }
  }
}

Windsurf

Settings → MCP → Add Server → 上記と同じJSON設定を使用。

Claude Desktop

claude_desktop_config.json に以下を追加します：

{
  "mcpServers": {
    "intercept": {
      "command": "npx",
      "args": ["-y", "intercept-mcp"]
    }
  }
}

その他のMCPクライアント

stdio MCPサーバーをサポートするクライアントであれば、npx -y intercept-mcp を実行できます。

fetch ツールを使用するのにAPIキーは不要です。

仕組み

URLは3つの段階で処理されます：

1. サイト固有のハンドラー

既知のURLパターンは、フォールバックパイプラインの前に専用ハンドラーへルーティングされます：

パターン	ハンドラー	取得内容
`twitter.com//status/`, `x.com//status/`	Twitter/X	ツイート本文、投稿者、メディア、エンゲージメント統計（サードパーティAPI経由）
`youtube.com/watch?v=`, `youtu.be/`	YouTube	タイトル、チャンネル、再生時間、再生数、説明文、トランスクリプト（字幕が利用可能な場合）
`arxiv.org/abs/`, `arxiv.org/pdf/`	arXiv	論文メタデータ、著者、要約、カテゴリ
`*.pdf`	PDF	抽出されたテキスト（テキストレイヤーを持つPDFのみ）
`.wikipedia.org/wiki/`	Wikipedia	Wikimedia REST API経由のクリーンな記事コンテンツ
`github.com/{owner}/{repo}`	GitHub	生のREADME.mdコンテンツ

2. フォールバックパイプライン

ハンドラーが一致しない（またはハンドラーが何も返さない）場合、URLはマルチティアのパイプラインに入ります：

ティア	フェッチャー	戦略
1	Cloudflare Browser Rendering	JSレンダリング + Markdown抽出（オプション、APIトークンが必要）
1	Jina Reader	クリーンなMarkdown抽出サービス
2	Wayback + Codetabs	アーカイブ版 + CORSプロキシ（並列実行）
3	Raw fetch	ブラウザヘッダー付きの直接GET + TurndownによるMarkdown変換
3	Stealth fetch	got-scrapingによるブラウザTLSフィンガープリント偽装（オプトイン、下記参照）
4	RSS, CrossRef, Semantic Scholar, HN, Reddit	メタデータ / ディスカッションのフォールバック
5	OG Meta	Open Graphタグ（保証されたフォールバック）

ティア2のフェッチャーは並列実行されます。両方成功した場合は、品質の高い結果が採用されます。他のすべてのティアは順次実行されます。

すべてのフェッチャーは、プレーンテキストではなく、Turndownを介して適切な Markdown（見出し、リンク、太字、テーブル、コードブロック）を返します。

3. キャッシュ

結果はメモリ内にTTL付きでキャッシュされます（成功時は30分、失敗時は5分）。LRUエビクションにより最大100エントリまで保持されます。失敗したURLもキャッシュされ、既知のデッドURLへの再試行を防ぎます。

ツール

`fetch`

URLを取得し、そのコンテンツをクリーンなMarkdownとして返します。

url (string, 必須) — 取得するURL
maxTier (number, オプション, 1-5) — 速度重視の場合、このティアで停止します

`search`

ウェブを検索し、結果を返します。

query (string, 必須) — 検索クエリ
count (number, オプション, 1-20, デフォルト5) — 結果の数

BRAVE_API_KEY が設定されている場合はBrave Search APIを、SEARXNG_URL が設定されている場合はSearXNGを、それ以外の場合は最後の手段としてDuckDuckGoを使用します。

プロンプト

`research-topic`

トピックを検索し、複数のソースから要約を取得するために上位の結果を取得します。

topic (string) — リサーチするトピック
depth (string, デフォルト "3") — 取得する上位結果の数

`extract-article`

URLを取得し、コンテンツから重要なポイントを抽出します。

url (string) — 取得して要約するURL

環境変数

変数	必須	説明
`BRAVE_API_KEY`	いいえ	検索用の Brave Search API キー
`SEARXNG_URL`	いいえ	セルフホストしたSearXNGインスタンスのURL（推奨）
`CF_API_TOKEN`	いいえ	「Browser Rendering - Edit」権限を持つCloudflare APIトークン
`CF_ACCOUNT_ID`	いいえ	CloudflareアカウントID（`CF_API_TOKEN` が設定されている場合に必須）
`USE_STEALTH_FETCH`	いいえ	`true` に設定するとステルスフェッチャーを有効にします（下記の警告を参照）

検索: DuckDuckGoのフォールバックがありますが、レート制限があり信頼性が低いです。本番環境で使用する場合は、SearXNG をセルフホストして SEARXNG_URL を設定するか、Brave Search APIキーを取得してください。

取得: キーなしで動作します。JavaScriptを多用するページ（SPA、Reactサイトなど）に対してCloudflare Browser Renderingを有効にするには、CF_API_TOKEN と CF_ACCOUNT_ID を設定してください。

ステルスフェッチャー (USE_STEALTH_FETCH)

自己責任で使用してください。 これを有効にすると、got-scraping を使用して、実際のブラウザのTLSフィンガープリント（Chrome/Firefoxの暗号スイート、HTTP/2設定、ヘッダー順序など）を偽装するフェッチャーが追加されます。これにより、自動リクエストをブロックするサイトのボット検知やCAPTCHAを回避できる場合があります。

このフェッチャーは、通常のRaw fetchの後のティア3で実行されます。Raw fetchがブロックされた場合（CAPTCHA、Cloudflareチャレンジ、403エラーなど）、ステルスフェッチャーがブラウザ偽装を行って再試行します。

これは一部のウェブサイトの利用規約に違反する可能性があります。 intercept-mcpの作者は、この機能の使用方法について一切の責任を負いません。デフォルトでは無効になっており、明示的に有効にする必要があります。

SearXNGのセルフホスト

信頼性の高い検索を行うには、Dockerを使用してSearXNGをセルフホストしてください。設定はリポジトリに含まれています：

git clone https://github.com/bighippoman/intercept-mcp.git
cd intercept-mcp/searxng && docker compose up -d

その後、SEARXNG_URL=http://localhost:8888 を設定します。レート制限やCAPTCHAはなく、Google + Bing + DuckDuckGo + Wikipedia + Braveを統合します。

または、既存のSearXNGインスタンスを使用することもできます。そのURLを SEARXNG_URL に設定するだけです。

URLの正規化

入力されたURLは自動的にクリーンアップされます：

60以上のトラッキングパラメータ（UTM、クリックID、アナリティクス、A/Bテストなど）を削除
ハッシュフラグメントを削除
HTTPSにアップグレード
AMPアーティファクトをクリーンアップ
機能的なパラメータ（ref, format, page, offset, limit）は保持

コンテンツ品質の検出

各フェッチャーの結果は品質スコアが付けられます。以下の場合、自動的に失敗とみなされます：

CAPTCHA / Cloudflareチャレンジ
ログインウォール
本文にHTTPエラーページが含まれる場合
コンテンツが200文字未満の場合

要件

Node.js >= 18
基本的な使用にはAPIキー不要

intercept-mcp

intercept-mcp

インストール

Claude Code

Codex

Cursor

Windsurf

Claude Desktop

その他のMCPクライアント

仕組み

1. サイト固有のハンドラー

2. フォールバックパイプライン

3. キャッシュ

ツール

`fetch`

`search`

プロンプト

`research-topic`

`extract-article`

環境変数

ステルスフェッチャー (USE_STEALTH_FETCH)

SearXNGのセルフホスト

URLの正規化

コンテンツ品質の検出

要件

Resources

Latest Blog Posts

MCP directory API