Skip to main content
Glama

intercept-mcp

Dale a tu IA la capacidad de leer la web. Un comando, sin necesidad de claves API.

Sin esto, tu IA accede a una URL y obtiene un 403, un muro o una pared de HTML sin procesar. Con intercept, casi siempre obtiene el contenido: markdown limpio, listo para usar.

Maneja tweets, videos de YouTube (con transcripciones cuando están disponibles), artículos de arXiv, PDFs, artículos de Wikipedia y repositorios de GitHub. Si la primera estrategia falla, intenta hasta 10 más antes de rendirse.

Funciona con cualquier cliente MCP: Claude Code, Claude Desktop, Codex, Cursor, Windsurf, Cline y más.

Instalación

Claude Code

claude mcp add intercept -s user -- npx -y intercept-mcp

Codex

codex mcp add intercept -- npx -y intercept-mcp

Cursor

Settings → MCP → Add Server:

{
  "mcpServers": {
    "intercept": {
      "command": "npx",
      "args": ["-y", "intercept-mcp"]
    }
  }
}

Windsurf

Settings → MCP → Add Server → misma configuración JSON que la anterior.

Claude Desktop

Añadir a tu claude_desktop_config.json:

{
  "mcpServers": {
    "intercept": {
      "command": "npx",
      "args": ["-y", "intercept-mcp"]
    }
  }
}

Otros clientes MCP

Cualquier cliente que soporte servidores MCP stdio puede ejecutar npx -y intercept-mcp.

No se necesitan claves API para la herramienta fetch.

Cómo funciona

Las URLs se procesan en tres etapas:

1. Manejadores específicos del sitio

Los patrones de URL conocidos se dirigen a manejadores dedicados antes de la tubería de respaldo:

Patrón

Manejador

Qué obtienes

twitter.com/*/status/*, x.com/*/status/*

Twitter/X

Texto del tweet, autor, medios, estadísticas de interacción (vía APIs de terceros)

youtube.com/watch?v=*, youtu.be/*

YouTube

Título, canal, duración, vistas, descripción, transcripción (cuando hay subtítulos disponibles)

arxiv.org/abs/*, arxiv.org/pdf/*

arXiv

Metadatos del artículo, autores, resumen, categorías

*.pdf

PDF

Texto extraído (solo PDFs con capa de texto)

*.wikipedia.org/wiki/*

Wikipedia

Contenido limpio del artículo vía API REST de Wikimedia

github.com/{owner}/{repo}

GitHub

Contenido crudo de README.md

2. Tubería de respaldo

Si ningún manejador coincide (o el manejador no devuelve nada), la URL entra en la tubería de múltiples niveles:

Nivel

Obtenedor

Estrategia

1

Renderizado de navegador Cloudflare

Renderizado JS + extracción de markdown (opcional, requiere token API)

1

Jina Reader

Servicio de extracción de markdown limpio

2

Wayback + Codetabs

Versión archivada + proxy CORS (ejecutado en paralelo)

3

Obtención cruda

GET directo con cabeceras de navegador + conversión de markdown Turndown

3

Obtención sigilosa

Suplantación de huella digital TLS del navegador vía got-scraping (opcional, ver abajo)

4

RSS, CrossRef, Semantic Scholar, HN, Reddit

Respaldos de metadatos / discusión

5

OG Meta

Etiquetas Open Graph (respaldo garantizado)

Los obtenedores de nivel 2 se ejecutan en paralelo. Cuando ambos tienen éxito, gana el resultado de mayor calidad. Todos los demás niveles se ejecutan secuencialmente.

Todos los obtenedores devuelven Markdown adecuado (encabezados, enlaces, negritas, tablas, bloques de código) vía Turndown, no texto plano.

3. Caché

Los resultados se almacenan en caché en memoria con TTL (30 min para éxitos, 5 min para fallos). Máximo 100 entradas con desalojo LRU. Las URLs fallidas se almacenan en caché para evitar reintentar URLs conocidas como muertas.

Herramientas

fetch

Obtén una URL y devuelve su contenido como markdown limpio.

  • url (string, requerido) — URL a obtener

  • maxTier (number, opcional, 1-5) — Detenerse en este nivel para casos sensibles a la velocidad

Busca en la web y devuelve resultados.

  • query (string, requerido) — Consulta de búsqueda

  • count (number, opcional, 1-20, por defecto 5) — Número de resultados

Utiliza la API de Brave Search si BRAVE_API_KEY está configurado, luego SearXNG si SEARXNG_URL está configurado, y finalmente DuckDuckGo como último recurso poco fiable.

Prompts

research-topic

Busca un tema y obtén los mejores resultados para un resumen de múltiples fuentes.

  • topic (string) — El tema a investigar

  • depth (string, por defecto "3") — Número de mejores resultados a obtener

extract-article

Obtén una URL y extrae los puntos clave del contenido.

  • url (string) — La URL a obtener y resumir

Variables de entorno

Variable

Requerido

Descripción

BRAVE_API_KEY

No

Clave de Brave Search API para búsqueda

SEARXNG_URL

No

URL de instancia de SearXNG autohospedada (recomendado)

CF_API_TOKEN

No

Token de API de Cloudflare con permiso "Browser Rendering - Edit"

CF_ACCOUNT_ID

No

ID de cuenta de Cloudflare (requerido si CF_API_TOKEN está configurado)

USE_STEALTH_FETCH

No

Establecer en true para habilitar el obtenedor sigiloso (ver advertencia abajo)

Búsqueda: Tiene un respaldo de DuckDuckGo pero está limitado en tasa y es poco fiable. Para uso en producción, autohospeda SearXNG y configura SEARXNG_URL (ver abajo), u obtén una clave de API de Brave Search.

Obtención: Funciona sin claves. Configura CF_API_TOKEN + CF_ACCOUNT_ID para habilitar el renderizado de navegador de Cloudflare para páginas con mucho JavaScript (SPAs, sitios React).

Obtención sigilosa (USE_STEALTH_FETCH)

Úsalo bajo tu propio riesgo. Cuando está habilitado, esto añade un obtenedor que suplanta huellas digitales TLS de navegadores reales (suites de cifrado de Chrome/Firefox, configuraciones HTTP/2, orden de cabeceras) usando got-scraping. Esto puede eludir la detección de bots y disparadores de CAPTCHA en sitios que de otro modo bloquearían solicitudes automatizadas.

Este obtenedor se ejecuta en el nivel 3 después de la obtención cruda regular. Si la obtención cruda es bloqueada (CAPTCHA, desafío de Cloudflare, 403), el obtenedor sigiloso reintenta con suplantación de navegador.

Esto puede violar los términos de servicio de algunos sitios web. Los autores de intercept-mcp no asumen ninguna responsabilidad por cómo se utiliza esta función. Está deshabilitada por defecto y debe ser activada explícitamente.

Autohospedaje de SearXNG

Para una búsqueda fiable, autohospeda SearXNG con Docker. Se incluye una configuración en el repositorio:

git clone https://github.com/bighippoman/intercept-mcp.git
cd intercept-mcp/searxng && docker compose up -d

Luego configura SEARXNG_URL=http://localhost:8888. Sin límites de tasa, sin CAPTCHAs, agrega Google + Bing + DuckDuckGo + Wikipedia + Brave.

O utiliza cualquier instancia de SearXNG existente; solo configura SEARXNG_URL a su URL.

Normalización de URL

Las URLs entrantes se limpian automáticamente:

  • Elimina más de 60 parámetros de seguimiento (UTM, IDs de clic, analíticas, pruebas A/B, etc.)

  • Elimina fragmentos hash

  • Actualiza a HTTPS

  • Limpia artefactos AMP

  • Preserva parámetros funcionales (ref, format, page, offset, limit)

Detección de calidad de contenido

Cada resultado de obtenedor se puntúa por calidad. Fallo automático en:

  • CAPTCHA / Desafíos de Cloudflare

  • Muros de inicio de sesión

  • Páginas de error HTTP en el cuerpo

  • Contenido de menos de 200 caracteres

Requisitos

  • Node.js >= 18

  • No se requieren claves API para uso básico

Install Server
A
security – no known vulnerabilities
A
license - permissive license
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/bighippoman/intercept-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server