Parses WeChat official account articles to extract titles, authors, publish times, content, and provides LLM-powered deep analysis including viewpoint extraction, structure analysis, and comprehensive semantic analysis.
微信公众号文章解析 MCP Server
基于 FastMCP 框架实现的微信公众号文章内容解析 MCP(Model Context Protocol)服务器。
功能特性
✅ 解析微信公众号文章 URL
✅ 提取文章标题、作者、发布时间
✅ 提取文章正文(纯文本格式)
✅ 提取文章摘要/描述
✅ LLM 深度分析:使用大语言模型进行语义分析、观点提取、结构分析
✅ 专注于文字内容解析,不处理图片
✅ 基于 FastMCP 框架,使用 stdio 传输
✅ 遵循 MCP 规范,与所有 MCP 客户端兼容
环境准备
1. 创建虚拟环境
2. 安装依赖
如果网络较慢,可以使用国内镜像源:
运行服务
在 Cursor 中配置 MCP
编辑 ~/.cursor/mcp.json,添加以下配置:
重启 Cursor,即可使用微信公众号文章解析功能!
配置 LLM API(可选,用于深度分析)
如果需要使用 analyze_with_llm 工具,需要配置智谱 AI API Key。
配置方式:环境变量(在 MCP 配置中)
在 ~/.cursor/mcp.json 中配置 API Key(已在安装步骤中配置):
获取 API Key: 访问 https://open.bigmodel.cn/ 注册并获取 API Key
可用工具
parse_article
解析微信公众号文章,生成详细摘要(使用 LLM 生成至少十句话的摘要,总结全文和分段要点)。
参数:
url(必填): 微信公众号文章 URL,例如:https://mp.weixin.qq.com/s/...
返回示例:
使用示例:
analyze_with_llm
使用大语言模型进行深度语义分析和观点提取(推荐)。
参数:
url(可选): 微信公众号文章 URL,如果提供则自动解析文章内容title(可选): 文章标题,如果不提供 URL 则必须提供author(可选): 作者名称content(可选): 文章正文内容,如果不提供 URL 则必须提供save_path(可选): 保存分析结果的 Markdown 文件路径,如果不提供则自动生成文件名model(可选): LLM 模型名称,默认 "glm-4",可选 "glm-4-flash", "glm-3-turbo" 等(智谱 AI)analysis_type(可选): 分析类型,默认 "comprehensive"(综合分析),可选 "viewpoint"(观点提取)、"structure"(结构分析)
分析类型说明:
comprehensive(综合分析):完整分析,包括观点、结构、论证方式、语言风格、价值评估
viewpoint(观点提取):专注于观点提取和分析,包括核心观点、分论点链条、论证方式、观点价值
structure(结构分析):专注于文章结构分析,包括整体结构、段落组织、过渡衔接、层次划分、可读性
返回示例:
使用示例:
方式 1:综合分析(默认)
方式 2:只提取观点
方式 3:只分析结构
方式 4:指定分析类型和模型
方式 5:使用不同的模型
注意:此工具需要智谱 AI API Key,会产生 API 调用费用。推荐使用 glm-4 模型,国内服务稳定且成本较低。
使用场景
场景 1:快速获取文章摘要
使用 parse_article 工具,快速获取文章标题、作者、发布时间,以及使用 LLM 生成的详细摘要(至少十句话,总结全文和分段要点)。
场景 2:LLM 深度分析(推荐)
使用 analyze_with_llm 工具进行深度语义分析:
观点提取:自动识别核心观点和分论点链条
结构分析:分析文章结构、段落组织、逻辑关系
论证方式:识别使用的论证方式并评估效果
语言风格:分析语言特点、表达技巧、可读性
价值评估:评估观点价值、传播潜力、目标读者
技术实现
核心技术栈
FastMCP: MCP 服务器框架
requests: HTTP 请求库
BeautifulSoup4: HTML 解析库
lxml: XML/HTML 解析器(BeautifulSoup 后端)
解析流程
URL 验证:验证是否为有效的微信公众号文章 URL
HTTP 请求:使用 requests 发送 GET 请求,模拟浏览器访问
HTML 解析:使用 BeautifulSoup 解析 HTML 内容
信息提取:
标题:从
<h1>标签提取作者:从作者相关的 CSS 类提取
发布时间:从时间相关的标签提取
正文:从
rich_media_content或js_content提取纯文本摘要:从 meta 标签提取
内容清理:移除 HTML 标签、脚本、样式,提取纯文本
LLM 摘要生成(parse_article):使用 LLM 生成详细摘要(至少十句话,总结全文和分段要点)
结果返回:返回 JSON 格式的结构化数据
注意事项
反爬虫机制:微信公众号可能有反爬虫机制,建议:
控制请求频率
使用合适的 User-Agent
避免频繁请求同一公众号
内容合法性:确保解析和使用微信公众号文章内容符合相关法律法规和平台规定。
URL 格式:确保提供的是完整的微信公众号文章 URL,格式通常为:
https://mp.weixin.qq.com/s/xxxxxhttps://weixin.qq.com/s/xxxxx
内容更新:微信公众号文章内容可能会更新,解析结果可能因时间而异。
开发
运行测试
项目结构
许可证
MIT License
贡献
欢迎提交 Issue 和 Pull Request!
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Parses WeChat public account articles to extract metadata, content, and generate AI-powered summaries with semantic analysis, viewpoint extraction, and structure analysis capabilities.