local-only server
The server can only run on the client’s local machine because it depends on local resources.
Integrations
Allows formatting scraped web content into structured markdown, with support for including images and saving formatted results to files
Uses Puppeteer to perform web scraping with capabilities like smart scrolling for single-page applications and content analysis to determine optimal scraping approaches
🔍 Prysm MCP 服务器
Prysm MCP(模型上下文协议)服务器使 Claude 等 AI 助手能够以高精度和灵活性抓取网络内容。
✨ 特点
- 🎯多种抓取模式:从集中(速度)、平衡(默认)或深度(彻底)模式中选择
- 🧠内容分析:分析 URL 以确定最佳抓取方法
- 📄格式灵活性:将结果格式化为 markdown、HTML 或 JSON
- 🖼️图像支持:可选择提取甚至下载图像
- 🔍智能滚动:配置单页应用程序的滚动行为
- 📱响应式:适应不同的网站布局和结构
- 💾文件输出:将格式化的结果保存到您首选的目录
🚀 快速入门
安装
集成指南
我们为流行的 MCP 兼容应用程序提供详细的集成指南:
用法
有多种方法可以设置 Prysm MCP 服务器:
使用 mcp.json 配置
根据上述指南在适当的位置创建mcp.json
文件。
🛠️ 工具
该服务器提供以下工具:
scrapeFocused
针对速度进行了优化的快速网页抓取(更少的滚动,仅主要内容)。
可用参数:
url
(必填):要抓取的 URLmaxScrolls
(可选):滚动尝试的最大次数(默认值:5)scrollDelay
(可选):滚动之间的延迟(毫秒)(默认值:1000)scrapeImages
(可选):是否在结果中包含图像downloadImages
(可选):是否将图片下载到本地maxImages
(可选):要提取的最大图像数output
(可选):下载图像的输出目录
scrapeBalanced
平衡的网络抓取方法,覆盖范围广,速度合理。
可用参数:
- 与
scrapeFocused
相同,但默认值不同 maxScrolls
默认值:10scrollDelay
默认值:2000- 添加
timeout
参数以限制总抓取时间(默认值:30000ms)
scrapeDeep
最大程度地提取网页抓取(速度较慢但彻底)。
可用参数:
- 与
scrapeFocused
相同,但默认值不同 maxScrolls
默认值:20scrollDelay
默认值:3000maxImages
默认值:100
formatResult
将抓取的数据格式化为不同的结构化格式(markdown、HTML、JSON)。
可用参数:
data
(必需):要格式化的抓取数据format
(必需):输出格式 - “markdown”,“html”或“json”includeImages
(可选):是否在输出中包含图像(默认值:true)output
(可选):保存格式化结果的文件路径
您还可以通过指定输出路径将格式化的结果保存到文件中:
⚙️ 配置
输出目录
默认情况下,保存格式化结果时,文件将保存到~/prysm-mcp/output/
。您可以通过两种方式自定义:
- 环境变量:将环境变量设置为您的首选目录:
- 工具参数:调用工具时直接指定输出路径:
- MCP 配置:在您的 MCP 配置文件(例如
.cursor/mcp.json
)中,您可以设置以下环境变量:
如果未指定PRYSM_IMAGE_OUTPUT_DIR
,则默认为PRYSM_OUTPUT_DIR
内的名为images
的子文件夹。
如果您只提供相对路径或文件名,它将相对于配置的输出目录保存。
路径处理规则
formatResult
工具通过以下方式处理路径:
- 绝对路径:完全按照提供的路径使用(
/home/user/file.md
) - 相对路径:相对于配置的输出目录保存(
subfolder/file.md
) - 仅文件名:保存在配置的输出目录中(
output.md
) - 目录路径:如果路径指向目录,则会根据内容和时间戳自动生成文件名
🏗️ 开发
通过 npx 运行
您可以直接使用 npx 运行服务器,无需安装:
📋 许可证
麻省理工学院
🙏 致谢
由Pink Pixel开发
You must be authenticated.
模型上下文协议服务器使人工智能助手能够以高精度和灵活性抓取网络内容,支持多种抓取模式和内容格式选项。
Related Resources
Appeared in Searches
- Scraping a marketplace to generate a JSON file with name, description, and link
- Search Engine Optimization (SEO) Resources
- Using tools to analyze a customer's website for technical stack, traffic, and search queries
- Accessing a webcheck server to retrieve JSON data for website analysis
- Tools and techniques for scraping website data, creating event calendars, and building YouTube playlists