remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Integrations
Enables custom JavaScript execution on target web pages, including headless Chrome/Chromium rendering and the ability to run custom JS scripts with configurable timeout settings.
Servidor MCP de WebScraping.AI
Una implementación de servidor de Protocolo de contexto de modelo (MCP) que se integra con WebScraping.AI para capacidades de extracción de datos web.
Características
- Respuesta a preguntas sobre el contenido de la página web
- Extracción de datos estructurados de páginas web
- Recuperación de contenido HTML con renderizado de JavaScript
- Extracción de texto simple de páginas web
- Extracción de contenido basada en selectores CSS
- Múltiples tipos de proxy (centro de datos, residencial) con selección de país
- Representación de JavaScript con Chrome/Chromium sin interfaz gráfica
- Gestión de solicitudes concurrentes con limitación de velocidad
- Ejecución de JavaScript personalizada en páginas de destino
- Emulación de dispositivo (computadora de escritorio, móvil, tableta)
- Monitoreo del uso de la cuenta
Instalación
Ejecutando con npx
Instalación manual
Configuración en Cursor
Nota: Requiere la versión de Cursor 0.45.6+
El servidor MCP de WebScraping.AI se puede configurar de dos maneras en Cursor:
- Configuración específica del proyecto (recomendada para proyectos de equipo): Cree un archivo
.cursor/mcp.json
en el directorio de su proyecto:Copy - Configuración global (para uso personal en todos los proyectos): cree un archivo
~/.cursor/mcp.json
en su directorio de inicio con el mismo formato de configuración que el anterior.
Si está usando Windows y tiene problemas, intente usar
cmd /c "set WEBSCRAPING_AI_API_KEY=your-api-key && npx -y webscraping-ai-mcp"
como comando.
Esta configuración hará que las herramientas WebScraping.AI estén disponibles para el agente de IA de Cursor automáticamente cuando sea relevante para las tareas de raspado web.
Ejecutándose en Claude Desktop
Agregue esto a su claude_desktop_config.json
:
Configuración
Variables de entorno
Requerido
WEBSCRAPING_AI_API_KEY
: Su clave API de WebScraping.AI- Requerido para todas las operaciones
- Obtén tu clave API de WebScraping.AI
Configuración opcional
WEBSCRAPING_AI_CONCURRENCY_LIMIT
: Número máximo de solicitudes simultáneas (predeterminado:5
)WEBSCRAPING_AI_DEFAULT_PROXY_TYPE
: Tipo de proxy a utilizar (predeterminado:residential
)WEBSCRAPING_AI_DEFAULT_JS_RENDERING
: Habilitar o deshabilitar la representación de JavaScript (valor predeterminado:true
)WEBSCRAPING_AI_DEFAULT_TIMEOUT
: Tiempo máximo de recuperación de la página web en ms (predeterminado:15000
, máximo:30000
)WEBSCRAPING_AI_DEFAULT_JS_TIMEOUT
: Tiempo máximo de renderizado de JavaScript en ms (valor predeterminado:2000
)
Ejemplos de configuración
Para uso estándar:
Herramientas disponibles
1. Herramienta de preguntas ( webscraping_ai_question
)
Haga preguntas sobre el contenido de la página web.
Ejemplo de respuesta:
2. Herramienta de campos ( webscraping_ai_fields
)
Extraer datos estructurados de páginas web según instrucciones.
Ejemplo de respuesta:
3. Herramienta HTML ( webscraping_ai_html
)
Obtenga el HTML completo de una página web con renderizado JavaScript.
Ejemplo de respuesta:
4. Herramienta de texto ( webscraping_ai_text
)
Extraer el contenido de texto visible de una página web.
Ejemplo de respuesta:
5. Herramienta seleccionada ( webscraping_ai_selected
)
Extraer contenido de un elemento específico usando un selector CSS.
Ejemplo de respuesta:
6. Herramienta de selección múltiple ( webscraping_ai_selected_multiple
)
Extraiga contenido de múltiples elementos usando selectores CSS.
Ejemplo de respuesta:
7. Herramienta de cuenta ( webscraping_ai_account
)
Obtenga información sobre su cuenta de WebScraping.AI.
Ejemplo de respuesta:
Opciones comunes para todas las herramientas
Las siguientes opciones se pueden utilizar con todas las herramientas de raspado:
timeout
: tiempo máximo de recuperación de la página web en ms (15000 por defecto, el máximo es 30000)js
: Ejecutar JavaScript en la página usando un navegador sin interfaz gráfica (verdadero de forma predeterminada)js_timeout
: Tiempo máximo de renderizado de JavaScript en ms (2000 por defecto)wait_for
: selector CSS que se debe esperar antes de devolver el contenido de la páginaproxy
: Tipo de proxy, centro de datos o residencial (residencial por defecto)country
: País del proxy a utilizar (EE. UU. por defecto). Países compatibles: EE. UU., GB, DE, IT, FR, CA, ES, RU, JP, KR, INcustom_proxy
: Su propia URL de proxy en formato " http://usuario:contraseña@host:puerto "device
: Tipo de emulación de dispositivo. Valores admitidos: ordenador, móvil, tableta.error_on_404
: Devuelve un error en el estado HTTP 404 en la página de destino (falso por defecto)error_on_redirect
: Devuelve un error al redireccionar a la página de destino (falso por defecto)js_script
: Código JavaScript personalizado para ejecutar en la página de destino
Manejo de errores
El servidor proporciona un manejo robusto de errores:
- Reintentos automáticos para errores transitorios
- Manejo del límite de velocidad con retroceso
- Mensajes de error detallados
- Resiliencia de la red
Ejemplo de respuesta de error:
Integración con LLM
Este servidor implementa el Protocolo de Contexto de Modelo (MPP) , lo que lo hace compatible con cualquier plataforma LLM compatible con MCP. Puede configurar su LLM para usar estas herramientas en tareas de web scraping.
Ejemplo: Configuración de Claude con MCP
Desarrollo
Contribuyendo
- Bifurcar el repositorio
- Crea tu rama de funciones
- Ejecutar pruebas:
npm test
- Enviar una solicitud de extracción
Licencia
Licencia MIT: consulte el archivo de LICENCIA para obtener más detalles
You must be authenticated.
Interactúe con la API de WebScraping.AI para la extracción y el raspado de datos web