intercept-mcp
intercept-mcp
赋予您的 AI 读取网页的能力。一条命令,无需 API 密钥。
如果没有它,您的 AI 在访问 URL 时可能会遇到 403 错误、访问限制或一堆原始 HTML 代码。有了 intercept,它几乎总能获取到内容——即开即用的整洁 Markdown。
支持推文、YouTube 视频(可用时提供字幕)、arXiv 论文、PDF、维基百科文章和 GitHub 仓库。如果第一种策略失败,它会尝试多达 10 种后续策略,直到成功或放弃。
适用于任何 MCP 客户端:Claude Code、Claude Desktop、Codex、Cursor、Windsurf、Cline 等。
安装
Claude Code
claude mcp add intercept -s user -- npx -y intercept-mcpCodex
codex mcp add intercept -- npx -y intercept-mcpCursor
设置 → MCP → 添加服务器:
{
"mcpServers": {
"intercept": {
"command": "npx",
"args": ["-y", "intercept-mcp"]
}
}
}Windsurf
设置 → MCP → 添加服务器 → 使用与上述相同的 JSON 配置。
Claude Desktop
添加到您的 claude_desktop_config.json:
{
"mcpServers": {
"intercept": {
"command": "npx",
"args": ["-y", "intercept-mcp"]
}
}
}其他 MCP 客户端
任何支持 stdio MCP 服务器的客户端都可以运行 npx -y intercept-mcp。
fetch 工具无需 API 密钥。
工作原理
URL 处理分为三个阶段:
1. 站点特定处理器
已知的 URL 模式在进入回退管道之前会路由到专用处理器:
模式 | 处理器 | 获取内容 |
| Twitter/X | 推文文本、作者、媒体、互动数据(通过第三方 API) |
| YouTube | 标题、频道、时长、观看次数、描述、字幕(当字幕可用时) |
| arXiv | 论文元数据、作者、摘要、分类 |
| 提取的文本(仅限文本层 PDF) | |
| 维基百科 | 通过 Wikimedia REST API 获取的整洁文章内容 |
| GitHub | 原始 README.md 内容 |
2. 回退管道
如果没有匹配的处理器(或处理器未返回内容),URL 将进入多层管道:
层级 | 获取器 | 策略 |
1 | Cloudflare 浏览器渲染 | JS 渲染 + Markdown 提取(可选,需要 API 令牌) |
1 | Jina Reader | 整洁的 Markdown 提取服务 |
2 | Wayback + Codetabs | 存档版本 + CORS 代理(并行运行) |
3 | 原始获取 | 使用浏览器标头的直接 GET + Turndown Markdown 转换 |
3 | 隐身获取 | 通过 got-scraping 进行浏览器 TLS 指纹模拟(可选,见下文) |
4 | RSS, CrossRef, Semantic Scholar, HN, Reddit | 元数据 / 讨论回退 |
5 | OG Meta | Open Graph 标签(保证回退) |
第 2 层获取器并行运行。当两者都成功时,质量更高的结果胜出。所有其他层级按顺序运行。
所有获取器都通过 Turndown 返回正确的 Markdown(标题、链接、粗体、表格、代码块),而不是纯文本。
3. 缓存
结果缓存在内存中,并带有 TTL(成功缓存 30 分钟,失败缓存 5 分钟)。最多缓存 100 条记录,采用 LRU 淘汰机制。失败的 URL 也会被缓存,以防止重复尝试已知的无效 URL。
工具
fetch
获取 URL 并将其内容作为整洁的 Markdown 返回。
url(字符串,必填) — 要获取的 URLmaxTier(数字,可选,1-5) — 在此层级停止,适用于对速度敏感的情况
search
搜索网络并返回结果。
query(字符串,必填) — 搜索查询count(数字,可选,1-20,默认 5) — 结果数量
如果设置了 BRAVE_API_KEY,则使用 Brave Search API;如果设置了 SEARXNG_URL,则使用 SearXNG;最后作为不可靠的兜底使用 DuckDuckGo。
提示词
research-topic
搜索主题并获取前几条结果,以进行多源总结。
topic(字符串) — 要研究的主题depth(字符串,默认 "3") — 要获取的前几条结果的数量
extract-article
获取 URL 并提取内容中的关键点。
url(字符串) — 要获取并总结的 URL
环境变量
变量 | 必填 | 描述 |
| 否 | Brave Search API 搜索密钥 |
| 否 | 自托管 SearXNG 实例 URL(推荐) |
| 否 | 具有“浏览器渲染 - 编辑”权限的 Cloudflare API 令牌 |
| 否 | Cloudflare 账户 ID(如果设置了 |
| 否 | 设置为 |
搜索: 具有 DuckDuckGo 回退功能,但受速率限制且不可靠。对于生产环境,请自托管 SearXNG 并设置 SEARXNG_URL(见下文),或获取 Brave Search API 密钥。
获取: 无需任何密钥即可工作。设置 CF_API_TOKEN + CF_ACCOUNT_ID 以启用针对重 JavaScript 页面(SPA、React 站点)的 Cloudflare 浏览器渲染。
隐身获取 (USE_STEALTH_FETCH)
风险自担。 启用后,这将添加一个获取器,使用 got-scraping 模拟真实的浏览器 TLS 指纹(Chrome/Firefox 密码套件、HTTP/2 设置、标头排序)。这可以绕过原本会阻止自动化请求的站点的机器人检测和 CAPTCHA 触发器。
此获取器在常规原始获取之后的第 3 层运行。如果原始获取被阻止(CAPTCHA、Cloudflare 挑战、403),隐身获取器将通过浏览器模拟重试。
这可能违反某些网站的服务条款。 intercept-mcp 的作者不对该功能的使用方式承担任何责任。它默认禁用,必须显式启用。
自托管 SearXNG
为了获得可靠的搜索,请使用 Docker 自托管 SearXNG。仓库 中包含了一个配置:
git clone https://github.com/bighippoman/intercept-mcp.git
cd intercept-mcp/searxng && docker compose up -d然后设置 SEARXNG_URL=http://localhost:8888。无速率限制,无 CAPTCHA,聚合了 Google + Bing + DuckDuckGo + Wikipedia + Brave。
或者使用任何现有的 SearXNG 实例——只需将 SEARXNG_URL 设置为其 URL 即可。
URL 规范化
传入的 URL 会自动清理:
去除 60 多个跟踪参数(UTM、点击 ID、分析、A/B 测试等)
移除哈希片段
升级到 HTTPS
清理 AMP 伪影
保留功能性参数(
ref,format,page,offset,limit)
内容质量检测
每个获取器的结果都会进行质量评分。以下情况自动失败:
CAPTCHA / Cloudflare 挑战
登录墙
正文中的 HTTP 错误页面
内容少于 200 个字符
要求
Node.js >= 18
基本使用无需 API 密钥
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/bighippoman/intercept-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server