intercept-mcp

Dale a tu IA la capacidad de leer la web. Un comando, sin necesidad de claves API.

Sin esto, tu IA accede a una URL y obtiene un 403, un muro o una pared de HTML sin procesar. Con intercept, casi siempre obtiene el contenido: markdown limpio, listo para usar.

Maneja tweets, videos de YouTube (con transcripciones cuando están disponibles), artículos de arXiv, PDFs, artículos de Wikipedia y repositorios de GitHub. Si la primera estrategia falla, intenta hasta 10 más antes de rendirse.

Funciona con cualquier cliente MCP: Claude Code, Claude Desktop, Codex, Cursor, Windsurf, Cline y más.

Instalación

Claude Code

claude mcp add intercept -s user -- npx -y intercept-mcp

Codex

codex mcp add intercept -- npx -y intercept-mcp

Cursor

Settings → MCP → Add Server:

{
  "mcpServers": {
    "intercept": {
      "command": "npx",
      "args": ["-y", "intercept-mcp"]
    }
  }
}

Windsurf

Settings → MCP → Add Server → misma configuración JSON que la anterior.

Claude Desktop

Añadir a tu claude_desktop_config.json:

{
  "mcpServers": {
    "intercept": {
      "command": "npx",
      "args": ["-y", "intercept-mcp"]
    }
  }
}

Otros clientes MCP

Cualquier cliente que soporte servidores MCP stdio puede ejecutar npx -y intercept-mcp.

No se necesitan claves API para la herramienta fetch.

Cómo funciona

Las URLs se procesan en tres etapas:

1. Manejadores específicos del sitio

Los patrones de URL conocidos se dirigen a manejadores dedicados antes de la tubería de respaldo:

Patrón	Manejador	Qué obtienes
`twitter.com//status/`, `x.com//status/`	Twitter/X	Texto del tweet, autor, medios, estadísticas de interacción (vía APIs de terceros)
`youtube.com/watch?v=`, `youtu.be/`	YouTube	Título, canal, duración, vistas, descripción, transcripción (cuando hay subtítulos disponibles)
`arxiv.org/abs/`, `arxiv.org/pdf/`	arXiv	Metadatos del artículo, autores, resumen, categorías
`*.pdf`	PDF	Texto extraído (solo PDFs con capa de texto)
`.wikipedia.org/wiki/`	Wikipedia	Contenido limpio del artículo vía API REST de Wikimedia
`github.com/{owner}/{repo}`	GitHub	Contenido crudo de README.md

2. Tubería de respaldo

Si ningún manejador coincide (o el manejador no devuelve nada), la URL entra en la tubería de múltiples niveles:

Nivel	Obtenedor	Estrategia
1	Renderizado de navegador Cloudflare	Renderizado JS + extracción de markdown (opcional, requiere token API)
1	Jina Reader	Servicio de extracción de markdown limpio
2	Wayback + Codetabs	Versión archivada + proxy CORS (ejecutado en paralelo)
3	Obtención cruda	GET directo con cabeceras de navegador + conversión de markdown Turndown
3	Obtención sigilosa	Suplantación de huella digital TLS del navegador vía got-scraping (opcional, ver abajo)
4	RSS, CrossRef, Semantic Scholar, HN, Reddit	Respaldos de metadatos / discusión
5	OG Meta	Etiquetas Open Graph (respaldo garantizado)

Los obtenedores de nivel 2 se ejecutan en paralelo. Cuando ambos tienen éxito, gana el resultado de mayor calidad. Todos los demás niveles se ejecutan secuencialmente.

Todos los obtenedores devuelven Markdown adecuado (encabezados, enlaces, negritas, tablas, bloques de código) vía Turndown, no texto plano.

3. Caché

Los resultados se almacenan en caché en memoria con TTL (30 min para éxitos, 5 min para fallos). Máximo 100 entradas con desalojo LRU. Las URLs fallidas se almacenan en caché para evitar reintentar URLs conocidas como muertas.

Herramientas

`fetch`

Obtén una URL y devuelve su contenido como markdown limpio.

url (string, requerido) — URL a obtener
maxTier (number, opcional, 1-5) — Detenerse en este nivel para casos sensibles a la velocidad

`search`

Busca en la web y devuelve resultados.

query (string, requerido) — Consulta de búsqueda
count (number, opcional, 1-20, por defecto 5) — Número de resultados

Utiliza la API de Brave Search si BRAVE_API_KEY está configurado, luego SearXNG si SEARXNG_URL está configurado, y finalmente DuckDuckGo como último recurso poco fiable.

Prompts

`research-topic`

Busca un tema y obtén los mejores resultados para un resumen de múltiples fuentes.

topic (string) — El tema a investigar
depth (string, por defecto "3") — Número de mejores resultados a obtener

`extract-article`

Obtén una URL y extrae los puntos clave del contenido.

url (string) — La URL a obtener y resumir

Variables de entorno

Variable	Requerido	Descripción
`BRAVE_API_KEY`	No	Clave de Brave Search API para búsqueda
`SEARXNG_URL`	No	URL de instancia de SearXNG autohospedada (recomendado)
`CF_API_TOKEN`	No	Token de API de Cloudflare con permiso "Browser Rendering - Edit"
`CF_ACCOUNT_ID`	No	ID de cuenta de Cloudflare (requerido si `CF_API_TOKEN` está configurado)
`USE_STEALTH_FETCH`	No	Establecer en `true` para habilitar el obtenedor sigiloso (ver advertencia abajo)

Búsqueda: Tiene un respaldo de DuckDuckGo pero está limitado en tasa y es poco fiable. Para uso en producción, autohospeda SearXNG y configura SEARXNG_URL (ver abajo), u obtén una clave de API de Brave Search.

Obtención: Funciona sin claves. Configura CF_API_TOKEN + CF_ACCOUNT_ID para habilitar el renderizado de navegador de Cloudflare para páginas con mucho JavaScript (SPAs, sitios React).

Obtención sigilosa (USE_STEALTH_FETCH)

Úsalo bajo tu propio riesgo. Cuando está habilitado, esto añade un obtenedor que suplanta huellas digitales TLS de navegadores reales (suites de cifrado de Chrome/Firefox, configuraciones HTTP/2, orden de cabeceras) usando got-scraping. Esto puede eludir la detección de bots y disparadores de CAPTCHA en sitios que de otro modo bloquearían solicitudes automatizadas.

Este obtenedor se ejecuta en el nivel 3 después de la obtención cruda regular. Si la obtención cruda es bloqueada (CAPTCHA, desafío de Cloudflare, 403), el obtenedor sigiloso reintenta con suplantación de navegador.

Esto puede violar los términos de servicio de algunos sitios web. Los autores de intercept-mcp no asumen ninguna responsabilidad por cómo se utiliza esta función. Está deshabilitada por defecto y debe ser activada explícitamente.

Autohospedaje de SearXNG

Para una búsqueda fiable, autohospeda SearXNG con Docker. Se incluye una configuración en el repositorio:

git clone https://github.com/bighippoman/intercept-mcp.git
cd intercept-mcp/searxng && docker compose up -d

Luego configura SEARXNG_URL=http://localhost:8888. Sin límites de tasa, sin CAPTCHAs, agrega Google + Bing + DuckDuckGo + Wikipedia + Brave.

O utiliza cualquier instancia de SearXNG existente; solo configura SEARXNG_URL a su URL.

Normalización de URL

Las URLs entrantes se limpian automáticamente:

Elimina más de 60 parámetros de seguimiento (UTM, IDs de clic, analíticas, pruebas A/B, etc.)
Elimina fragmentos hash
Actualiza a HTTPS
Limpia artefactos AMP
Preserva parámetros funcionales (ref, format, page, offset, limit)

Detección de calidad de contenido

Cada resultado de obtenedor se puntúa por calidad. Fallo automático en:

CAPTCHA / Desafíos de Cloudflare
Muros de inicio de sesión
Páginas de error HTTP en el cuerpo
Contenido de menos de 200 caracteres

Requisitos

Node.js >= 18
No se requieren claves API para uso básico

intercept-mcp

intercept-mcp

Instalación

Claude Code

Codex

Cursor

Windsurf

Claude Desktop

Otros clientes MCP

Cómo funciona

1. Manejadores específicos del sitio

2. Tubería de respaldo

3. Caché

Herramientas

`fetch`

`search`

Prompts

`research-topic`

`extract-article`

Variables de entorno

Obtención sigilosa (USE_STEALTH_FETCH)

Autohospedaje de SearXNG

Normalización de URL

Detección de calidad de contenido

Requisitos

Resources

Latest Blog Posts

MCP directory API