WebforAI 文本提取器 - MCP 服务器
基于 Cloudflare Workers 的模型上下文协议 (MCP) 服务器,使用WebforAI从网页中提取纯文本。
🌟 WebforAI 是什么?
WebforAI是一个功能强大的库,旨在使 AI 模型能够访问 Web 内容。它提供的工具可以:
- 将 HTML 转换为干净、结构化的 Markdown
- 从网页中提取有意义的内容
- 智能处理表格、链接和图像
- 准备用于 AI 消费的 Web 内容
该 MCP 服务器利用 WebforAI 的功能从任何网页 URL 中提取纯文本,从而可以轻松地通过模型上下文协议将网页内容输入 AI 模型。
📋 功能
- 简单的 API :通过一次 API 调用从任何网页中提取文本
- 干净的输出:接收格式良好的 Markdown 文本,没有 HTML 噪音
- 错误处理:对失败的请求进行强大的错误处理
- Cloudflare Workers :全球分布的无服务器部署
- MCP 兼容:可与任何 MCP 客户端(如 Claude Desktop 或 Cloudflare AI Playground)配合使用
🚀 入门
部署到 Cloudflare Workers
这会将您的 MCP 服务器部署到类似这样的 URL: webforai-mcp-server.<your-account>.workers.dev/sse
本地开发
- 克隆此存储库:
- 安装依赖项:
- 启动开发服务器:
- 您的服务器将通过
http://localhost:8787
访问
🔧 使用文本提取工具
extractWebPageText
工具接受网页的 URL 并以 markdown 格式返回提取的文本内容:
响应将包含 Markdown 格式的提取文本,其中包括:
- 链接转换为纯文本
- 表格转换为纯文本
- 隐藏图片
🔌 连接到 MCP 客户端
Cloudflare AI 游乐场
- 前往Cloudflare AI Playground
- 输入您部署的 MCP 服务器 URL (
webforai-mcp-server.<your-account>.workers.dev/sse
) - 您现在可以直接从操场使用文本提取工具!
克劳德桌面
要从 Claude Desktop 连接到您的 MCP 服务器:
- 遵循Anthropic 的快速入门
- 在 Claude Desktop 中,转到“设置”>“开发者”>“编辑配置”
- 使用此配置进行更新:
- 重新启动 Claude,你就会看到文本提取工具可用
📚 了解更多
📄 许可证
麻省理工学院
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
基于 Cloudflare Workers 的服务器,使用 WebforAI 从网页中提取干净的格式化文本,并通过模型上下文协议使其可供 AI 模型访问。
Related MCP Servers
- AsecurityAlicenseAqualityA production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.Last updated -316PythonMIT License
- -security-license-qualityAn open standard server implementation that enables AI assistants to directly access APIs and services through Model Context Protocol, built using Cloudflare Workers for scalability.Last updated -TypeScript
- AsecurityAlicenseAqualityA Model Context Protocol server enabling AI assistants to scrape web content with high accuracy and flexibility, supporting multiple scraping modes and content formatting options.Last updated -4172TypeScriptMIT License
- AsecurityAlicenseAqualityA server that leverages Playwright for automated browser testing and integrates with Cloudflare Workers, enabling AI assistants to control web browsers for navigation, interaction, and screenshots.Last updated -2170,03656TypeScriptApache 2.0