MCP de obtención

Servidor MCP para obtener contenido de páginas web mediante el navegador sin interfaz gráfica Playwright.

Ventajas

Compatibilidad con JavaScript : a diferencia de los raspadores web tradicionales, Fetcher MCP utiliza Playwright para ejecutar JavaScript, lo que lo hace capaz de manejar contenido web dinámico y aplicaciones web modernas.
Extracción de contenido inteligente : el algoritmo de legibilidad integrado extrae automáticamente el contenido principal de las páginas web, eliminando anuncios, navegación y otros elementos no esenciales.
Formato de salida flexible : admite formatos de salida HTML y Markdown, lo que facilita la integración con varias aplicaciones posteriores.
Procesamiento paralelo : la herramienta fetch_urls permite la obtención simultánea de múltiples URL, lo que mejora significativamente la eficiencia de las operaciones por lotes.
Optimización de recursos : bloquea automáticamente los recursos innecesarios (imágenes, hojas de estilo, fuentes, medios) para reducir el uso del ancho de banda y mejorar el rendimiento.
Manejo robusto de errores : el manejo y registro de errores integrales garantizan un funcionamiento confiable incluso cuando se trata de páginas web problemáticas.
Parámetros configurables : control detallado de los tiempos de espera, la extracción de contenido y el formato de salida para adaptarse a diferentes casos de uso.

Related MCP server: MCP Server Fetch Python

Inicio rápido

Ejecutar directamente con npx:

npx -y fetcher-mcp

Primera configuración: instale el navegador requerido ejecutando el siguiente comando en su terminal:

npx playwright install chromium

Modo de depuración

Ejecute con la opción --debug para mostrar la ventana del navegador para depuración:

npx -y fetcher-mcp --debug

Configuración MCP

Configure este servidor MCP en Claude Desktop:

En MacOS: ~/Library/Application Support/Claude/claude_desktop_config.json

En Windows: %APPDATA%/Claude/claude_desktop_config.json

{ "mcpServers": { "fetcher": { "command": "npx", "args": ["-y", "fetcher-mcp"] } } }

Características

fetch_url - Recupera el contenido de una página web desde una URL específica
- Utiliza el navegador sin interfaz gráfica Playwright para analizar JavaScript
- Admite la extracción inteligente del contenido principal y la conversión a Markdown
- Admite los siguientes parámetros:
  - url : La URL de la página web a obtener (parámetro obligatorio)
  - timeout : Tiempo de espera de carga de la página en milisegundos, el valor predeterminado es 30000 (30 segundos)
  - waitUntil : especifica cuándo se considera completa la navegación, opciones: 'load', 'domcontentloaded', 'networkidle', 'commit', el valor predeterminado es 'load'
  - extractContent : si se debe extraer de forma inteligente el contenido principal, el valor predeterminado es verdadero
  - maxLength : Longitud máxima del contenido devuelto (en caracteres), el valor predeterminado es sin límite
  - returnHtml : si se debe devolver contenido HTML en lugar de Markdown, el valor predeterminado es falso
  - waitForNavigation : si se debe esperar una navegación adicional después de la carga inicial de la página (útil para sitios con verificación anti-bot), el valor predeterminado es falso
  - navigationTimeout : Tiempo máximo de espera para navegación adicional en milisegundos, el valor predeterminado es 10000 (10 segundos)
  - disableMedia : si se deben deshabilitar los recursos multimedia (imágenes, hojas de estilo, fuentes, medios), el valor predeterminado es verdadero
  - debug : si se habilita el modo de depuración (mostrando la ventana del navegador), anula el indicador de línea de comando --debug si se especifica
fetch_urls - Recupera por lotes el contenido de páginas web desde múltiples URL en paralelo
- Utiliza la búsqueda paralela de múltiples pestañas para un mejor rendimiento
- Devuelve resultados combinados con una clara separación entre páginas web
- Admite los siguientes parámetros:
  - urls : Matriz de URL para obtener (parámetro obligatorio)
  - Los demás parámetros son los mismos que fetch_url

Consejos

Manejo de escenarios especiales de sitios web

Cómo lidiar con los mecanismos anti-rastreadores

Espere a que se complete la carga : para sitios web que utilizan CAPTCHA, redirecciones u otros mecanismos de verificación, incluya en su solicitud:
Please wait for the page to fully load
Esto utilizará el parámetro waitForNavigation: true .
Aumentar la duración del tiempo de espera : para sitios web que se cargan lentamente:
Please set the page loading timeout to 60 seconds
Esto ajusta los parámetros de timeout y navigationTimeout según corresponda.

Ajustes de recuperación de contenido

Conservar la estructura HTML original : cuando la extracción de contenido puede fallar:
Please preserve the original HTML content
Establece extractContent: false y returnHtml: true .
Obtener contenido completo de la página : cuando el contenido extraído es demasiado limitado:
Please fetch the complete webpage content instead of just the main content
Establece extractContent: false .
Devolver contenido como HTML : cuando se necesita el formato HTML en lugar del Markdown predeterminado:
Please return the content in HTML format
Establece returnHtml: true .

Depuración y autenticación

Habilitar el modo de depuración

Activación de depuración dinámica : para mostrar la ventana del navegador durante una operación de búsqueda específica:
Please enable debug mode for this fetch operation
Esto establece debug: true incluso si el servidor se inició sin el indicador --debug .

Uso de cookies personalizadas para la autenticación

Inicio de sesión manual : para iniciar sesión con sus propias credenciales:
Please run in debug mode so I can manually log in to the website
Establece debug: true o utiliza el indicador --debug , manteniendo la ventana del navegador abierta para el inicio de sesión manual.
Interactuar con el navegador de depuración : cuando el modo de depuración está habilitado:
1. La ventana del navegador permanece abierta
2. Puede iniciar sesión manualmente en el sitio web utilizando sus credenciales
3. Una vez completado el inicio de sesión, se obtendrá el contenido con su sesión autenticada.
Habilitar la depuración para solicitudes específicas : incluso si el servidor ya está en ejecución, puede habilitar el modo de depuración para una solicitud específica:
Please enable debug mode for this authentication step
Establece debug: true solo para esta solicitud específica, abriendo la ventana del navegador para inicio de sesión manual.

Desarrollo

Instalar dependencias

npm install

Instalar Playwright Browser

Instalar los navegadores necesarios para Playwright:

npm run install-browser

Construir el servidor

npm run build

Depuración

Utilice MCP Inspector para depurar:

npm run inspector

También puedes habilitar el modo de navegador visible para la depuración:

node build/index.js --debug

Proyectos relacionados

g-search-mcp : Un potente servidor MCP para la búsqueda de Google que permite realizar búsquedas paralelas con múltiples palabras clave simultáneamente. Ideal para búsquedas por lotes y recopilación de datos.

Licencia

Con licencia MIT

Fetch MCP