Scrapling Fetch MCP

by cyberchitta
Verified

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Integrations

  • Enables installation of the MCP server through PyPI's package repository, with version tracking and dependency management.

Scrapling Fetch MCP

Un servidor MCP que ayuda a los asistentes de IA a acceder al contenido de texto de sitios web que implementan la detección de bots, reduciendo la brecha entre lo que puede ver en su navegador y lo que la IA puede acceder.

Uso previsto

Esta herramienta está optimizada para la recuperación de documentación y materiales de referencia de bajo volumen (solo texto/HTML) de sitios web que implementan la detección de bots. No se ha diseñado ni probado para el scraping de sitios web ni la recolección de datos de uso general.

Nota : Este proyecto fue desarrollado en colaboración con Claude Sonnet 3.7, utilizando LLM Context .

Instalación

  1. Requisitos:
    • Python 3.10+
    • administrador de paquetes uv
  2. Instalar dependencias y la herramienta:
uv tool install scrapling scrapling install uv tool install scrapling-fetch-mcp

Configuración con Claude

Agregue esta configuración a la configuración del servidor MCP de su cliente Claude:

{ "mcpServers": { "Cyber-Chitta": { "command": "uvx", "args": ["scrapling-fetch-mcp"] } } }

Herramientas disponibles

Este paquete proporciona dos herramientas distintas:

  1. s-fetch-page : recupera páginas web completas con soporte de paginación
  2. s-fetch-pattern : extrae contenido que coincide con los patrones de expresiones regulares con el contexto circundante

Ejemplo de uso

Obtener una página completa

Human: Please fetch and summarize the documentation at https://example.com/docs Claude: I'll help you with that. Let me fetch the documentation. <mcp:function_calls> <mcp:invoke name="s-fetch-page"> <mcp:parameter name="url">https://example.com/docs</mcp:parameter> <mcp:parameter name="mode">basic</mcp:parameter> </mcp:invoke> </mcp:function_calls> Based on the documentation I retrieved, here's a summary...

Extracción de contenido específico con coincidencia de patrones

Human: Please find all mentions of "API keys" on the documentation page. Claude: I'll search for that specific information. <mcp:function_calls> <mcp:invoke name="s-fetch-pattern"> <mcp:parameter name="url">https://example.com/docs</mcp:parameter> <mcp:parameter name="mode">basic</mcp:parameter> <mcp:parameter name="search_pattern">API\s+keys?</mcp:parameter> <mcp:parameter name="context_chars">150</mcp:parameter> </mcp:invoke> </mcp:function_calls> I found several mentions of API keys in the documentation: ...

Opciones de funcionalidad

  • Niveles de protección :
    • basic : recuperación rápida (1-2 segundos) pero menor éxito con sitios altamente protegidos
    • stealth : protección equilibrada (3-8 segundos) que funciona con la mayoría de los sitios
    • max-stealth : Máxima protección (más de 10 segundos) para sitios altamente protegidos
  • Opciones de segmentación de contenido :
    • s-fetch-page : recupera páginas completas con soporte de paginación (usando start_index y max_length )
    • s-fetch-pattern : Extrae contenido específico usando expresiones regulares (con search_pattern y context_chars )
      • Los resultados incluyen información de posición para consultas de seguimiento con s-fetch-page

Consejos para obtener los mejores resultados

  • Comience con el modo basic y solo escale a niveles de protección más altos si es necesario
  • Para documentos grandes, utilice los parámetros de paginación con s-fetch-page
  • Utilice s-fetch-pattern cuando busque información específica en páginas grandes
  • La IA ajustará automáticamente su enfoque en función del nivel de protección del sitio.

Limitaciones

  • Diseñado únicamente para contenido de texto : específicamente para documentación, artículos y materiales de referencia.
  • No está diseñado para el raspado o la recolección de datos de gran volumen.
  • Puede que no funcione con sitios que requieren autenticación
  • El rendimiento varía según la complejidad del sitio

Licencia

Apache 2

-
security - not tested
A
license - permissive license
-
quality - not tested

Un servidor MCP que ayuda a los asistentes de IA a acceder al contenido de texto de sitios web que implementan la detección de bots, reduciendo la brecha entre lo que puede ver en su navegador y lo que la IA puede acceder.

  1. Intended Use
    1. Installation
      1. Setup with Claude
        1. Available Tools
          1. Example Usage
            1. Fetching a Complete Page
            2. Extracting Specific Content with Pattern Matching
          2. Functionality Options
            1. Tips for Best Results
              1. Limitations
                1. License
                  ID: jgm6w7mkc8