WeChat Article Parser

README.md•7.74 KiB

# 微信公众号文章解析 MCP Server 基于 FastMCP 框架实现的微信公众号文章内容解析 MCP（Model Context Protocol）服务器。 ## 功能特性 - ✅ 解析微信公众号文章 URL - ✅ 提取文章标题、作者、发布时间 - ✅ 提取文章正文（纯文本格式） - ✅ 提取文章摘要/描述 - ✅ **LLM 深度分析**：使用大语言模型进行语义分析、观点提取、结构分析 - ✅ 专注于文字内容解析，不处理图片 - ✅ 基于 FastMCP 框架，使用 stdio 传输 - ✅ 遵循 MCP 规范，与所有 MCP 客户端兼容 ## 环境准备 ### 1. 创建虚拟环境 ```bash # 创建虚拟环境 python -m venv venv # 激活虚拟环境 # macOS/Linux: source venv/bin/activate # Windows: venv\Scripts\activate ``` ### 2. 安装依赖 ```bash pip install -r requirements.txt ``` 如果网络较慢，可以使用国内镜像源： ```bash pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple ``` ## 运行服务 ```bash python server.py ``` ## 在 Cursor 中配置 MCP 编辑 `~/.cursor/mcp.json`，添加以下配置： ```json { "mcpServers": { "wechat-article-parser": { "command": "python3", "args": ["/绝对路径/wechat-article-parser-mcp/server.py"] } } } ``` 重启 Cursor，即可使用微信公众号文章解析功能！ ### 配置 LLM API（可选，用于深度分析）如果需要使用 `analyze_with_llm` 工具，需要配置智谱 AI API Key。 **配置方式：环境变量（在 MCP 配置中）** 在 `~/.cursor/mcp.json` 中配置 API Key（已在安装步骤中配置）： ```json { "wechat-article-parser": { "command": "python3", "args": ["/path/to/server.py"], "env": { "ZHIPU_API_KEY": "your-zhipu-api-key-here" } } } ``` **获取 API Key：** 访问 https://open.bigmodel.cn/ 注册并获取 API Key ## 可用工具 ### parse_article 解析微信公众号文章，生成详细摘要（使用 LLM 生成至少十句话的摘要，总结全文和分段要点）。 **参数：** - `url` (必填): 微信公众号文章 URL，例如：`https://mp.weixin.qq.com/s/...` **返回示例：** ```json { "success": true, "url": "https://mp.weixin.qq.com/s/...", "title": "文章标题", "author": "作者名称", "publish_time": "2024-01-01 12:00:00", "summary": "使用 LLM 生成的详细摘要（至少十句话，总结全文和分段要点）...", "metadata": { "charset": "utf-8", "content_type": "text/html" } } ``` **使用示例：** ``` parse_article( url="https://mp.weixin.qq.com/s/xxxxx" ) ``` ### analyze_with_llm 使用大语言模型进行深度语义分析和观点提取（推荐）。 **参数：** - `url` (可选): 微信公众号文章 URL，如果提供则自动解析文章内容 - `title` (可选): 文章标题，如果不提供 URL 则必须提供 - `author` (可选): 作者名称 - `content` (可选): 文章正文内容，如果不提供 URL 则必须提供 - `save_path` (可选): 保存分析结果的 Markdown 文件路径，如果不提供则自动生成文件名 - `model` (可选): LLM 模型名称，默认 "glm-4"，可选 "glm-4-flash", "glm-3-turbo" 等（智谱 AI） - `analysis_type` (可选): 分析类型，默认 "comprehensive"（综合分析），可选 "viewpoint"（观点提取）、"structure"（结构分析） **分析类型说明：** - **comprehensive**（综合分析）：完整分析，包括观点、结构、论证方式、语言风格、价值评估 - **viewpoint**（观点提取）：专注于观点提取和分析，包括核心观点、分论点链条、论证方式、观点价值 - **structure**（结构分析）：专注于文章结构分析，包括整体结构、段落组织、过渡衔接、层次划分、可读性 **返回示例：** ```json { "success": true, "message": "LLM analysis completed successfully", "file_path": "文章标题-LLM综合分析.md", "file_size": 12345, "article_info": { "title": "文章标题", "author": "作者名称", "content_length": 1234 }, "analysis_info": { "type": "comprehensive", "model": "glm-4", "provider": "zhipu", "method": "LLM semantic analysis" } } ``` **使用示例：** 方式 1：综合分析（默认） ``` analyze_with_llm( url="https://mp.weixin.qq.com/s/xxxxx" ) ``` 方式 2：只提取观点 ``` analyze_with_llm( url="https://mp.weixin.qq.com/s/xxxxx", analysis_type="viewpoint" ) ``` 方式 3：只分析结构 ``` analyze_with_llm( url="https://mp.weixin.qq.com/s/xxxxx", analysis_type="structure" ) ``` 方式 4：指定分析类型和模型 ``` analyze_with_llm( url="https://mp.weixin.qq.com/s/xxxxx", model="glm-4", analysis_type="viewpoint" ) ``` 方式 5：使用不同的模型 ``` analyze_with_llm( url="https://mp.weixin.qq.com/s/xxxxx", model="glm-4-flash" ) ``` **注意**：此工具需要智谱 AI API Key，会产生 API 调用费用。推荐使用 `glm-4` 模型，国内服务稳定且成本较低。 ## 使用场景 ### 场景 1：快速获取文章摘要使用 `parse_article` 工具，快速获取文章标题、作者、发布时间，以及使用 LLM 生成的详细摘要（至少十句话，总结全文和分段要点）。 ### 场景 2：LLM 深度分析（推荐）使用 `analyze_with_llm` 工具进行深度语义分析： - **观点提取**：自动识别核心观点和分论点链条 - **结构分析**：分析文章结构、段落组织、逻辑关系 - **论证方式**：识别使用的论证方式并评估效果 - **语言风格**：分析语言特点、表达技巧、可读性 - **价值评估**：评估观点价值、传播潜力、目标读者 ## 技术实现 ### 核心技术栈 - **FastMCP**: MCP 服务器框架 - **requests**: HTTP 请求库 - **BeautifulSoup4**: HTML 解析库 - **lxml**: XML/HTML 解析器（BeautifulSoup 后端） ### 解析流程 1. **URL 验证**：验证是否为有效的微信公众号文章 URL 2. **HTTP 请求**：使用 requests 发送 GET 请求，模拟浏览器访问 3. **HTML 解析**：使用 BeautifulSoup 解析 HTML 内容 4. **信息提取**： - 标题：从 `<h1>` 标签提取 - 作者：从作者相关的 CSS 类提取 - 发布时间：从时间相关的标签提取 - 正文：从 `rich_media_content` 或 `js_content` 提取纯文本 - 摘要：从 meta 标签提取 5. **内容清理**：移除 HTML 标签、脚本、样式，提取纯文本 6. **LLM 摘要生成**（parse_article）：使用 LLM 生成详细摘要（至少十句话，总结全文和分段要点） 7. **结果返回**：返回 JSON 格式的结构化数据 ## 注意事项 1. **反爬虫机制**：微信公众号可能有反爬虫机制，建议： - 控制请求频率 - 使用合适的 User-Agent - 避免频繁请求同一公众号 2. **内容合法性**：确保解析和使用微信公众号文章内容符合相关法律法规和平台规定。 3. **URL 格式**：确保提供的是完整的微信公众号文章 URL，格式通常为： - `https://mp.weixin.qq.com/s/xxxxx` - `https://weixin.qq.com/s/xxxxx` 4. **内容更新**：微信公众号文章内容可能会更新，解析结果可能因时间而异。 ## 开发 ### 运行测试 ```bash # 运行所有测试 pytest # 运行测试并生成覆盖率报告 pytest --cov=server --cov-report=html # 运行类型检查 mypy server.py ``` ### 项目结构 ``` . ├── server.py # MCP 服务器主程序 ├── requirements.txt # Python 依赖包 ├── README.md # 项目文档（本文件） ├── .gitignore # Git 忽略文件 └── tests/ # 测试目录（可选） └── test_server.py # 服务器单元测试 ``` ## 许可证 MIT License ## 贡献欢迎提交 Issue 和 Pull Request！

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/zenmindyj/mcp101'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

README.md•7.74 KiB