Doc Scraper MCP 服务器
提供文档抓取功能的模型上下文协议 (MCP) 服务器。该服务器使用 jina.ai 的转换服务将基于 Web 的文档转换为 Markdown 格式。
特征
从任何网址抓取文档
将 HTML 文档转换为 markdown 格式
将转换后的文档保存到指定的输出路径
与模型上下文协议 (MCP) 集成
Related MCP server: Markdownify MCP Server - UTF-8 Enhanced
安装
通过 Smithery 安装
要通过Smithery自动安装适用于 Claude Desktop 的 Doc Scraper:
npx -y @smithery/cli install @askjohngeorge/mcp-doc-scraper --client claude
克隆存储库:
git clone https://github.com/askjohngeorge/mcp-doc-scraper.git
cd mcp-doc-scraper
创建并激活虚拟环境:
python -m venv venv
source venv/bin/activate # On Windows, use: venv\Scripts\activate
安装依赖项:
pip install -e .
用法
可以使用 Python 运行服务器:
python -m mcp_doc_scraper
工具描述
服务器提供一个单一工具:
名称:
scrape_docs描述:从 URL 抓取文档并保存为 markdown
输入参数:
url:要抓取的文档的 URLoutput_path:markdown 文件的保存路径
项目结构
doc_scraper/
├── __init__.py
├── __main__.py
└── server.py
依赖项
aiohttp
甲基氯丙烯
派丹蒂克
发展
设置开发环境:
安装开发依赖项:
pip install -r requirements.txt
服务器使用模型上下文协议 (MCP)。请务必熟悉MCP 文档。
执照
MIT 许可证