Robot Resources Scraper
@robot-resources/scraper-mcp
⚠️ 已弃用 — 已合并至
@robot-resources/scraper。 此 MCP 服务器现在作为主 scraper 包中的内置scraper-mcp二进制文件发布。安装一个包即可获得 MCP。通过npx robot-resources --for=cursor或npx robot-resources --for=claude-code进行自动配置。下方的工具 (scraper_compress_url,scraper_crawl_url) 和参数保持不变。
用于 Scraper 的 MCP 服务器 — 为 AI 智能体提供上下文压缩。
什么是 Robot Resources?
人力资源,但专为您的 AI 智能体服务。
Robot Resources 为 AI 智能体提供了两种超能力:
路由器 (Router) — 将每个 LLM 调用路由到最便宜且具备能力的模型。在 OpenAI、Anthropic 和 Google 之间节省 60-90% 的成本。
抓取器 (Scraper) — 将网页压缩为精简的 Markdown。每页减少 70-80% 的 Token。
两者均在本地运行。您的 API 密钥永远不会离开您的机器。免费、无限制、无分级。
安装完整套件
npx robot-resources一条命令即可完成所有设置。了解更多信息请访问 robotresources.ai
关于此 MCP 服务器
此包通过 Model Context Protocol 为 AI 智能体提供了两种将网页内容压缩为 Token 高效 Markdown 的工具:单页压缩和多页 BFS 爬取。
安装
npx @robot-resources/scraper-mcp或者全局安装:
npm install -g @robot-resources/scraper-mcpClaude Desktop 配置
添加到您的 claude_desktop_config.json 中:
{
"mcpServers": {
"scraper": {
"command": "npx",
"args": ["-y", "@robot-resources/scraper-mcp"]
}
}
}工具
scraper_compress_url
将单个网页压缩为 Markdown,减少 70-90% 的 Token。
参数:
参数 | 类型 | 必需 | 默认值 | 描述 |
| string | 是 | — | 要压缩的 URL |
| string | 否 |
|
|
| number | 否 |
| 抓取超时时间(毫秒) |
| number | 否 |
| 最大重试次数 (0-10) |
示例提示词: "Compress https://docs.example.com/getting-started"
scraper_crawl_url
使用 BFS 链接发现从起始 URL 爬取多个页面。
参数:
参数 | 类型 | 必需 | 默认值 | 描述 |
| string | 是 | — | 爬取的起始 URL |
| number | 否 |
| 最大爬取页面数 (1-100) |
| number | 否 |
| 最大链接深度 (0-5) |
| string | 否 |
|
|
| string[] | 否 | — | 要包含的 URL 模式 (glob) |
| string[] | 否 | — | 要排除的 URL 模式 (glob) |
| number | 否 |
| 单页超时时间(毫秒) |
示例提示词: "Crawl the docs at https://docs.example.com with max 20 pages"
抓取模式
模式 | 方式 | 使用场景 |
| 普通 HTTP | 默认站点、API、文档 |
| TLS 指纹模拟 | 反爬虫保护的站点 |
| 无头浏览器 (Playwright) | JS 渲染的 SPA |
| 快速 → 在 403/挑战时回退到 stealth | 未知站点(默认) |
Stealth 模式需要 impit,Render 模式需要 playwright 作为 @robot-resources/scraper 的对等依赖项。
要求
Node.js 18+
相关项目
@robot-resources/scraper - 核心压缩库
@robot-resources/router-mcp - 用于 LLM 成本优化的 MCP 服务器
Robot Resources - 人力资源,但专为您的 AI 智能体服务
许可证
MIT
Resources
Unclaimed servers have limited discoverability.
Looking for Admin?
If you are the server author, to access and configure the admin panel.
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/robot-resources/scraper-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server