MD MCP 网络爬虫项目
基于 Python 的 MCP( https://modelcontextprotocol.io/introduction )网络爬虫,用于提取和保存网站内容。
特征
提取网站内容并保存为 markdown 文件
地图网站结构和链接
批量处理多个 URL
可配置的输出目录
安装
克隆存储库:
安装依赖项:
可选:配置环境变量:
输出
爬取的内容以markdown格式保存在指定的输出目录中。
配置
可以通过环境变量配置服务器:
OUTPUT_PATH
:保存文件的默认输出目录MAX_CONCURRENT_REQUESTS
:最大并行请求数(默认值:5)REQUEST_TIMEOUT
:请求超时(秒)(默认值:30)
克劳德的设置
使用 FastMCP 安装fastmcp install server.py
或用户自定义设置直接使用 fastmcp 运行
发展
实时开发
调试
它有助于使用https://modelcontextprotocol.io/docs/tools/inspector进行调试
示例
示例 1:提取并保存内容
示例 2:创建内容索引
贡献
分叉存储库
创建功能分支(
git checkout -b feature/AmazingFeature
)提交您的更改(
git commit -m 'Add some AmazingFeature'
)推送到分支(
git push origin feature/AmazingFeature
)打开拉取请求
执照
根据 MIT 许可证分发。更多信息请参阅LICENSE
。
要求
Python 3.7+
FastMCP(uv pip 安装 fastmcp)
requirements.txt 中列出的依赖项
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
基于 Python 的 MCP 服务器,可抓取网站以提取内容并将其保存为 markdown 文件,并具有映射网站结构和链接的功能。
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityA powerful MCP server for fetching and transforming web content into various formats (HTML, JSON, Markdown, Plain Text) with ease.Last updated -41,01737MIT License
- AsecurityAlicenseAqualityA TypeScript-based MCP server utilizing the UseScraper API to provide web scraping capabilities, allowing users to extract content from webpages in various formats.Last updated -4MIT License
- -securityAlicense-qualityA Python implementation of an MCP server that extracts webpage content, removes ads and non-essential elements, and transforms it into clean, LLM-optimized Markdown.Last updated -3MIT License
- -securityAlicense-qualityToolset that crawls websites, generates Markdown documentation, and makes that documentation searchable via a Model Context Protocol (MCP) server for integration with tools like Cursor.Last updated -26MIT License