Scrapling Fetch MCP

by cyberchitta
Verified

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Integrations

  • Enables installation of the MCP server through PyPI's package repository, with version tracking and dependency management.

Scrapling Fetch MCP

MCP 服务器可帮助 AI 助手访问实施机器人检测的网站的文本内容,从而弥合您在浏览器中看到的内容与 AI 可以访问的内容之间的差距。

预期用途

此工具已针对从已实施机器人检测的网站检索少量文档和参考资料(仅限文本/HTML)进行了优化。它尚未针对通用网站抓取或数据收集进行设计或测试。

注意:该项目是与 Claude Sonnet 3.7 合作开发的,使用LLM Context

安装

  1. 要求:
    • Python 3.10+
    • uv包管理器
  2. 安装依赖项和工具:
uv tool install scrapling scrapling install uv tool install scrapling-fetch-mcp

与 Claude 一起设置

将此配置添加到您的 Claude 客户端的 MCP 服务器配置中:

{ "mcpServers": { "Cyber-Chitta": { "command": "uvx", "args": ["scrapling-fetch-mcp"] } } }

可用工具

该软件包提供了两种不同的工具:

  1. s-fetch-page :检索支持分页的完整网页
  2. s-fetch-pattern :提取与周围上下文匹配的正则表达式模式的内容

示例用法

获取完整页面

Human: Please fetch and summarize the documentation at https://example.com/docs Claude: I'll help you with that. Let me fetch the documentation. <mcp:function_calls> <mcp:invoke name="s-fetch-page"> <mcp:parameter name="url">https://example.com/docs</mcp:parameter> <mcp:parameter name="mode">basic</mcp:parameter> </mcp:invoke> </mcp:function_calls> Based on the documentation I retrieved, here's a summary...

使用模式匹配提取特定内容

Human: Please find all mentions of "API keys" on the documentation page. Claude: I'll search for that specific information. <mcp:function_calls> <mcp:invoke name="s-fetch-pattern"> <mcp:parameter name="url">https://example.com/docs</mcp:parameter> <mcp:parameter name="mode">basic</mcp:parameter> <mcp:parameter name="search_pattern">API\s+keys?</mcp:parameter> <mcp:parameter name="context_chars">150</mcp:parameter> </mcp:invoke> </mcp:function_calls> I found several mentions of API keys in the documentation: ...

功能选项

  • 保护级别
    • basic :快速检索(1-2 秒),但对于保护严密的站点,成功率较低
    • stealth :平衡保护(3-8 秒),适用于大多数网站
    • max-stealth :针对严密保护的站点提供最大程度的保护(10 秒以上)
  • 内容定位选项
    • s-fetch-page :检索具有分页支持的整个页面(使用start_indexmax_length
    • s-fetch-pattern :使用正则表达式提取特定内容(使用search_patterncontext_chars
      • 结果包括使用s-fetch-page进行后续查询的位置信息

获得最佳效果的技巧

  • basic模式开始,仅在需要时升级到更高的保护级别
  • 对于大型文档,请使用s-fetch-page的分页参数
  • 在大页面上查找特定信息时使用s-fetch-pattern
  • 人工智能将根据站点的保护级别自动调整其方法

限制

  • 仅为文本内容设计:专门用于文档、文章和参考资料
  • 不适用于大容量抓取或数据收集
  • 可能无法与需要身份验证的网站一起使用
  • 性能因站点复杂程度而异

执照

阿帕奇 2

-
security - not tested
A
license - permissive license
-
quality - not tested

MCP 服务器可帮助 AI 助手访问实施机器人检测的网站的文本内容,从而弥合您在浏览器中看到的内容与 AI 可以访问的内容之间的差距。

  1. Intended Use
    1. Installation
      1. Setup with Claude
        1. Available Tools
          1. Example Usage
            1. Fetching a Complete Page
            2. Extracting Specific Content with Pattern Matching
          2. Functionality Options
            1. Tips for Best Results
              1. Limitations
                1. License
                  ID: jgm6w7mkc8