Scrapling Fetch MCP
Un servidor MCP que ayuda a los asistentes de IA a acceder al contenido de texto de sitios web que implementan la detección de bots, reduciendo la brecha entre lo que puede ver en su navegador y lo que la IA puede acceder.
Uso previsto
Esta herramienta está optimizada para la recuperación de documentación y materiales de referencia de bajo volumen (solo texto/HTML) de sitios web que implementan la detección de bots. No se ha diseñado ni probado para el scraping de sitios web ni la recolección de datos de uso general.
Nota : Este proyecto fue desarrollado en colaboración con Claude Sonnet 3.7, utilizando LLM Context .
Instalación
- Requisitos:
- Python 3.10+
- administrador de paquetes uv
- Instalar dependencias y la herramienta:
Configuración con Claude
Agregue esta configuración a la configuración del servidor MCP de su cliente Claude:
Herramientas disponibles
Este paquete proporciona dos herramientas distintas:
- s-fetch-page : recupera páginas web completas con soporte de paginación
- s-fetch-pattern : extrae contenido que coincide con los patrones de expresiones regulares con el contexto circundante
Ejemplo de uso
Obtener una página completa
Extracción de contenido específico con coincidencia de patrones
Opciones de funcionalidad
- Niveles de protección :
basic
: recuperación rápida (1-2 segundos) pero menor éxito con sitios altamente protegidosstealth
: protección equilibrada (3-8 segundos) que funciona con la mayoría de los sitiosmax-stealth
: Máxima protección (más de 10 segundos) para sitios altamente protegidos
- Opciones de segmentación de contenido :
- s-fetch-page : recupera páginas completas con soporte de paginación (usando
start_index
ymax_length
) - s-fetch-pattern : Extrae contenido específico usando expresiones regulares (con
search_pattern
ycontext_chars
)- Los resultados incluyen información de posición para consultas de seguimiento con
s-fetch-page
- Los resultados incluyen información de posición para consultas de seguimiento con
- s-fetch-page : recupera páginas completas con soporte de paginación (usando
Consejos para obtener los mejores resultados
- Comience con el modo
basic
y solo escale a niveles de protección más altos si es necesario - Para documentos grandes, utilice los parámetros de paginación con
s-fetch-page
- Utilice
s-fetch-pattern
cuando busque información específica en páginas grandes - La IA ajustará automáticamente su enfoque en función del nivel de protección del sitio.
Limitaciones
- Diseñado únicamente para contenido de texto : específicamente para documentación, artículos y materiales de referencia.
- No está diseñado para el raspado o la recolección de datos de gran volumen.
- Puede que no funcione con sitios que requieren autenticación
- El rendimiento varía según la complejidad del sitio
Licencia
Apache 2
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Un servidor MCP que ayuda a los asistentes de IA a acceder al contenido de texto de sitios web que implementan la detección de bots, reduciendo la brecha entre lo que puede ver en su navegador y lo que la IA puede acceder.
Related MCP Servers
- AsecurityAlicenseAqualityA headless browser MCP server that allows AI agents to fetch web content and perform Google searches without API keys, supporting various output formats like Markdown, JSON, HTML, and text.Last updated -24TypeScriptMIT License
- -securityFlicense-qualityA specialized MCP server that enables AI agents to interact with Reddit, including reading posts, creating content, and managing subreddit configurations.Last updated -315JavaScript
- -securityFlicense-qualityAn MCP server that connects AI assistants to SearchAgora, enabling users to search for, discover, and purchase products across the web through natural language conversations.Last updated -1Python
- -securityAlicense-qualityAn MCP server that enables AI assistants to control a web browser through natural language commands, allowing them to navigate websites and extract information via SSE transport.Last updated -505PythonMIT License