README.md•5.26 kB
<p align="center">
<img src="images/product.jpg" alt="Thordata">
</p>
<h1 align="center" style="border-bottom: none;">
Thordata MCP 服务器
</h1>
<p align="center">
<em>以195+国家代理网络为基,Thordata MCP 破壁Web数据牢笼,为AI模型输送纯净、结构化、全球无界的实时信息流</em>
</p>
<div align="center">
[](LICENSE)
<br/>
</div>
---
## 📖 概述
ScraperMCP 服务器无缝桥接AI与Web生态,一键触达全球任意网站,实时渲染JavaScript、智能突破反爬机制,输出AI就绪的结构化数据内容。
## 🛠️ MCP 工具
Thordata MCP 支持解锁器和普通代理双通道数据获取,全面兼容MarkDown、HTML、Links多种数据格式
### Web 爬虫 API 工具
Thordata MCP 提供 parse_with_ai_selectors 工具,依托 Thordata Web Scraper API 实现任意网站智能抓取
## ✅ 先决条件
开始部署前,请确保具备:
- **thordata Web 爬虫 API 账户**: 访问 [thordata](https://www.thordata.com/) 获取专属账号凭证;
## 📦 配置
### 环境变量
thordata MCP 服务器支持以下环境变量配置:
| 名称 | 描述 | 默认值 |
|----------------------------|-----------------------------------------------|---------|
| `UNLOCKER_PROXY_LOGIN` | 解锁器用户名 | |
| `UNLOCKER_PROXY_PASSWORD` | 解锁器密码 | |
| `UNLOCKER_PROXY_URL` | 解锁器代理地址 | |
| `DEFAULT_PROXY_LOGIN` | 普通代理用户名 | |
| `DEFAULT_PROXY_PASSWORD` | 普通代理密码 | |
| `DEFAULT_PROXY_URL` | 普通代理地址 | |
### 使用 uv 配置
- 安装 uv 包管理器:
```bash
# macOS 和 Linux
curl -LsSf https://astral.sh/uv/install.sh | sh
```
或者:
```bash
# Windows
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
```
- 使用以下配置:
```json
{
"mcpServers": {
"Scraper": {
"command": "uv",
"args": [
"--directory",
"<文件夹绝对路径>",#例如 D:\\ScraperMcp
"run",
"Scraper.py"
]
}
}
}
```
### 启动命令 ###
fastmcp run Scraper.py:mcp
### 🖥️ 手动设置指南
#### Claude Desktop 配置
1. 打开 Claude 应用
2. 导航至 **设置 → 开发者 → 编辑配置**
3. 将上述配置添加到 `claude_desktop_config.json` 文件中
#### Cursor AI 配置
1. 打开 Cursor 编辑器
2. 导航至 **设置 → Cursor 设置 → MCP**
3. 点击 **添加新的全局 MCP 服务器**
4. 配置相应参数
#### Cline 配置
1. 打开 Cline 设置
2. 导航至 **MCP服务器设置 → 已安装**
3. 点击 **配置MCP服务器**
4. 配置相应参数
### 手动设置 Cline 设置 → Mcp服务器 设置 -> 已安装 -> 点击配置MCP服务器 并配置相应参数
## 🛡️ 许可证
基于 MIT 许可证开源分发 - 详见 [LICENSE](LICENSE) 文件。
---
## 关于 Thordata
Thordata 作为市场领先的网络情报采集平台,恪守最高商业道德与合规标准,赋能全球企业挖掘数据驱动的商业洞察。
<div align="center">
<sub>
由 <a href="https://www.thordata.com/">Thordata</a> 由Thordata制作,若 MCP 为您节省宝贵时间,诚邀给予 ⭐ 支持。
</sub>
</div>
## ✨ 核心特性
<details>
<summary><strong> 全域网站内容抓取</strong></summary>
<br>
- 支持任意URL数据提取,包括复杂单页应用程序
- 完整JavaScript渲染能力,确保动态内容完美呈现
- 灵活渲染模式选择:全JS渲染、纯HTML或无渲染
</details>
<details>
<summary><strong> 智能AI数据预处理</strong></summary>
<br>
- 自动化HTML清洗并转换为高可读性Markdown
- 智能提取有效可用链接,优化数据结构
- 原生HTML格式支持,保持数据完整性
</details>
<details>
<summary><strong> 全球网络无障碍访问</strong></summary>
<br>
- 高效突破复杂反爬虫防护系统
- 稳定抓取高难度网站内容
- 195+国家IP池自动轮换,打破地理限制
</details>
<details>
<summary><strong> 跨平台灵活部署</strong></summary>
<br>
- 自定义渲染与解析参数配置
- 无缝对接AI模型与分析工具
- 全面支持macOS、Windows、Linux系统
</details>
---
## 为什么选择 Thordata MCP? 🕸️ ➜ 📦 ➜ 🤖
只需对LLM说*"总结Hacker News上关于Mcp的最新讨论"*,即刻获得精准答案。
MCP(多客户端代理)为您代劳所有繁琐环节:
| Thordata MCP 的核心价值 | 为您带来的优势 |
|-------------------------------------------------------------------|------------------------------------------|
| **Thordata全球代理网络智能绕过反机器人检测** | 保障访问畅通与身份匿名 |
| **一键式数据获取解决方案** | 复杂单页应用轻松应对 |
| **多格式输出支持(MarkDown/HTML/Links)** | 精准匹配您的数据需求