intercept-mcp

赋予您的 AI 读取网页的能力。一条命令，无需 API 密钥。

如果没有它，您的 AI 在访问 URL 时可能会遇到 403 错误、访问限制或一堆原始 HTML 代码。有了 intercept，它几乎总能获取到内容——即开即用的整洁 Markdown。

支持推文、YouTube 视频（可用时提供字幕）、arXiv 论文、PDF、维基百科文章和 GitHub 仓库。如果第一种策略失败，它会尝试多达 10 种后续策略，直到成功或放弃。

适用于任何 MCP 客户端：Claude Code、Claude Desktop、Codex、Cursor、Windsurf、Cline 等。

安装

Claude Code

claude mcp add intercept -s user -- npx -y intercept-mcp

Codex

codex mcp add intercept -- npx -y intercept-mcp

Cursor

设置 → MCP → 添加服务器：

{
  "mcpServers": {
    "intercept": {
      "command": "npx",
      "args": ["-y", "intercept-mcp"]
    }
  }
}

Windsurf

设置 → MCP → 添加服务器 → 使用与上述相同的 JSON 配置。

Claude Desktop

添加到您的 claude_desktop_config.json：

{
  "mcpServers": {
    "intercept": {
      "command": "npx",
      "args": ["-y", "intercept-mcp"]
    }
  }
}

其他 MCP 客户端

任何支持 stdio MCP 服务器的客户端都可以运行 npx -y intercept-mcp。

fetch 工具无需 API 密钥。

工作原理

URL 处理分为三个阶段：

1. 站点特定处理器

已知的 URL 模式在进入回退管道之前会路由到专用处理器：

模式	处理器	获取内容
`twitter.com//status/`, `x.com//status/`	Twitter/X	推文文本、作者、媒体、互动数据（通过第三方 API）
`youtube.com/watch?v=`, `youtu.be/`	YouTube	标题、频道、时长、观看次数、描述、字幕（当字幕可用时）
`arxiv.org/abs/`, `arxiv.org/pdf/`	arXiv	论文元数据、作者、摘要、分类
`*.pdf`	PDF	提取的文本（仅限文本层 PDF）
`.wikipedia.org/wiki/`	维基百科	通过 Wikimedia REST API 获取的整洁文章内容
`github.com/{owner}/{repo}`	GitHub	原始 README.md 内容

2. 回退管道

如果没有匹配的处理器（或处理器未返回内容），URL 将进入多层管道：

层级	获取器	策略
1	Cloudflare 浏览器渲染	JS 渲染 + Markdown 提取（可选，需要 API 令牌）
1	Jina Reader	整洁的 Markdown 提取服务
2	Wayback + Codetabs	存档版本 + CORS 代理（并行运行）
3	原始获取	使用浏览器标头的直接 GET + Turndown Markdown 转换
3	隐身获取	通过 got-scraping 进行浏览器 TLS 指纹模拟（可选，见下文）
4	RSS, CrossRef, Semantic Scholar, HN, Reddit	元数据 / 讨论回退
5	OG Meta	Open Graph 标签（保证回退）

第 2 层获取器并行运行。当两者都成功时，质量更高的结果胜出。所有其他层级按顺序运行。

所有获取器都通过 Turndown 返回正确的 Markdown（标题、链接、粗体、表格、代码块），而不是纯文本。

3. 缓存

结果缓存在内存中，并带有 TTL（成功缓存 30 分钟，失败缓存 5 分钟）。最多缓存 100 条记录，采用 LRU 淘汰机制。失败的 URL 也会被缓存，以防止重复尝试已知的无效 URL。

工具

`fetch`

获取 URL 并将其内容作为整洁的 Markdown 返回。

url (字符串，必填) — 要获取的 URL
maxTier (数字，可选，1-5) — 在此层级停止，适用于对速度敏感的情况

`search`

搜索网络并返回结果。

query (字符串，必填) — 搜索查询
count (数字，可选，1-20，默认 5) — 结果数量

如果设置了 BRAVE_API_KEY，则使用 Brave Search API；如果设置了 SEARXNG_URL，则使用 SearXNG；最后作为不可靠的兜底使用 DuckDuckGo。

提示词

`research-topic`

搜索主题并获取前几条结果，以进行多源总结。

topic (字符串) — 要研究的主题
depth (字符串，默认 "3") — 要获取的前几条结果的数量

`extract-article`

获取 URL 并提取内容中的关键点。

url (字符串) — 要获取并总结的 URL

环境变量

变量	必填	描述
`BRAVE_API_KEY`	否	Brave Search API 搜索密钥
`SEARXNG_URL`	否	自托管 SearXNG 实例 URL（推荐）
`CF_API_TOKEN`	否	具有“浏览器渲染 - 编辑”权限的 Cloudflare API 令牌
`CF_ACCOUNT_ID`	否	Cloudflare 账户 ID（如果设置了 `CF_API_TOKEN` 则必填）
`USE_STEALTH_FETCH`	否	设置为 `true` 以启用隐身获取器（见下文警告）

搜索： 具有 DuckDuckGo 回退功能，但受速率限制且不可靠。对于生产环境，请自托管 SearXNG 并设置 SEARXNG_URL（见下文），或获取 Brave Search API 密钥。

获取： 无需任何密钥即可工作。设置 CF_API_TOKEN + CF_ACCOUNT_ID 以启用针对重 JavaScript 页面（SPA、React 站点）的 Cloudflare 浏览器渲染。

隐身获取 (USE_STEALTH_FETCH)

风险自担。 启用后，这将添加一个获取器，使用 got-scraping 模拟真实的浏览器 TLS 指纹（Chrome/Firefox 密码套件、HTTP/2 设置、标头排序）。这可以绕过原本会阻止自动化请求的站点的机器人检测和 CAPTCHA 触发器。

此获取器在常规原始获取之后的第 3 层运行。如果原始获取被阻止（CAPTCHA、Cloudflare 挑战、403），隐身获取器将通过浏览器模拟重试。

这可能违反某些网站的服务条款。 intercept-mcp 的作者不对该功能的使用方式承担任何责任。它默认禁用，必须显式启用。

自托管 SearXNG

为了获得可靠的搜索，请使用 Docker 自托管 SearXNG。仓库中包含了一个配置：

git clone https://github.com/bighippoman/intercept-mcp.git
cd intercept-mcp/searxng && docker compose up -d

然后设置 SEARXNG_URL=http://localhost:8888。无速率限制，无 CAPTCHA，聚合了 Google + Bing + DuckDuckGo + Wikipedia + Brave。

或者使用任何现有的 SearXNG 实例——只需将 SEARXNG_URL 设置为其 URL 即可。

URL 规范化

传入的 URL 会自动清理：

去除 60 多个跟踪参数（UTM、点击 ID、分析、A/B 测试等）
移除哈希片段
升级到 HTTPS
清理 AMP 伪影
保留功能性参数（ref, format, page, offset, limit）

内容质量检测

每个获取器的结果都会进行质量评分。以下情况自动失败：

CAPTCHA / Cloudflare 挑战
登录墙
正文中的 HTTP 错误页面
内容少于 200 个字符

要求

Node.js >= 18
基本使用无需 API 密钥

intercept-mcp

intercept-mcp

安装

Claude Code

Codex

Cursor

Windsurf

Claude Desktop

其他 MCP 客户端

工作原理

1. 站点特定处理器

2. 回退管道

3. 缓存

工具

`fetch`

`search`

提示词

`research-topic`

`extract-article`

环境变量

隐身获取 (USE_STEALTH_FETCH)

自托管 SearXNG

URL 规范化

内容质量检测

要求

Resources

Latest Blog Posts

MCP directory API