npm version License: MIT

@robot-resources/scraper-mcp

Name: Robot Resources Scraper
Author: robot-resources

⚠️ DESPRECADO — integrado en @robot-resources/scraper. Este servidor MCP ahora se distribuye como un binario scraper-mcp integrado dentro del paquete principal de scraper. Instala un paquete, obtén el MCP. Configuración automática mediante npx robot-resources --for=cursor o npx robot-resources --for=claude-code. Las herramientas (scraper_compress_url, scraper_crawl_url) y los parámetros a continuación no han cambiado.

Servidor MCP para Scraper — compresión de contexto para agentes de IA.

¿Qué es Robot Resources?

Recursos Humanos, pero para tus agentes de IA.

Robot Resources otorga a los agentes de IA dos superpoderes:

Router — Dirige cada llamada de LLM al modelo capaz más económico. Ahorros de costos del 60-90% en OpenAI, Anthropic y Google.
Scraper — Comprime páginas web a markdown limpio. 70-80% menos de tokens por página.

Ambos se ejecutan localmente. Tus claves de API nunca salen de tu máquina. Gratis, ilimitado, sin niveles.

Instala la suite completa

npx robot-resources

Un comando configura todo. Aprende más en robotresources.ai

Acerca de este servidor MCP

Este paquete proporciona a los agentes de IA dos herramientas para comprimir contenido web en markdown eficiente en tokens a través del Protocolo de Contexto de Modelo: compresión de una sola página y rastreo BFS de múltiples páginas.

Instalación

npx @robot-resources/scraper-mcp

O instálalo globalmente:

npm install -g @robot-resources/scraper-mcp

Configuración de Claude Desktop

Añade a tu claude_desktop_config.json:

{
  "mcpServers": {
    "scraper": {
      "command": "npx",
      "args": ["-y", "@robot-resources/scraper-mcp"]
    }
  }
}

Herramientas

`scraper_compress_url`

Comprime una sola página web en markdown con un 70-90% menos de tokens.

Parámetros:

Parámetro	Tipo	Requerido	Predeterminado	Descripción
`url`	string	sí	—	URL a comprimir
`mode`	string	no	`'auto'`	`'fast'`, `'stealth'`, `'render'` o `'auto'`
`timeout`	number	no	`10000`	Tiempo de espera de obtención en milisegundos
`maxRetries`	number	no	`3`	Intentos máximos de reintento (0-10)

Ejemplo de prompt: "Compress https://docs.example.com/getting-started"

`scraper_crawl_url`

Rastrea múltiples páginas desde una URL inicial usando descubrimiento de enlaces BFS.

Parámetros:

Parámetro	Tipo	Requerido	Predeterminado	Descripción
`url`	string	sí	—	URL inicial para rastrear
`maxPages`	number	no	`10`	Páginas máximas a rastrear (1-100)
`maxDepth`	number	no	`2`	Profundidad máxima de enlace (0-5)
`mode`	string	no	`'auto'`	`'fast'`, `'stealth'`, `'render'` o `'auto'`
`include`	string[]	no	—	Patrones de URL a incluir (glob)
`exclude`	string[]	no	—	Patrones de URL a excluir (glob)
`timeout`	number	no	`10000`	Tiempo de espera por página en milisegundos

Ejemplo de prompt: "Crawl the docs at https://docs.example.com with max 20 pages"

Modos de obtención

Modo	Cómo	Usar cuando
`'fast'`	HTTP simple	Sitios predeterminados, APIs, docs
`'stealth'`	Suplantación de huella TLS	Sitios protegidos contra bots
`'render'`	Navegador headless (Playwright)	SPAs renderizadas con JS
`'auto'`	Rápido → respaldo stealth en 403/desafío	Sitios desconocidos (predeterminado)

Stealth requiere impit y render requiere playwright como dependencias de par de @robot-resources/scraper.

Requisitos

Node.js 18+

Relacionado

@robot-resources/scraper - Biblioteca de compresión central
@robot-resources/router-mcp - Servidor MCP para optimización de costos de LLM
Robot Resources - Recursos Humanos, pero para tus agentes de IA

Licencia

MIT

Robot Resources Scraper