Fetch MCP

by jae-jae
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Enables fetching and processing of dynamic web content that relies on JavaScript, executing client-side scripts to render full page content that traditional scrapers would miss.

  • Offers conversion of fetched web content to Markdown format, making it easy to integrate the retrieved information into markdown-based applications.

MCP de obtención

Servidor MCP para obtener contenido de páginas web mediante el navegador sin interfaz gráfica Playwright.

Ventajas

  • Compatibilidad con JavaScript : a diferencia de los raspadores web tradicionales, Fetcher MCP utiliza Playwright para ejecutar JavaScript, lo que lo hace capaz de manejar contenido web dinámico y aplicaciones web modernas.
  • Extracción de contenido inteligente : el algoritmo de legibilidad integrado extrae automáticamente el contenido principal de las páginas web, eliminando anuncios, navegación y otros elementos no esenciales.
  • Formato de salida flexible : admite formatos de salida HTML y Markdown, lo que facilita la integración con varias aplicaciones posteriores.
  • Procesamiento paralelo : la herramienta fetch_urls permite la obtención simultánea de múltiples URL, lo que mejora significativamente la eficiencia de las operaciones por lotes.
  • Optimización de recursos : bloquea automáticamente los recursos innecesarios (imágenes, hojas de estilo, fuentes, medios) para reducir el uso del ancho de banda y mejorar el rendimiento.
  • Manejo robusto de errores : el manejo y registro de errores integrales garantizan un funcionamiento confiable incluso cuando se trata de páginas web problemáticas.
  • Parámetros configurables : control detallado de los tiempos de espera, la extracción de contenido y el formato de salida para adaptarse a diferentes casos de uso.

Inicio rápido

Ejecutar directamente con npx:

npx -y fetcher-mcp

Primera configuración: instale el navegador requerido ejecutando el siguiente comando en su terminal:

npx playwright install chromium

Modo de depuración

Ejecute con la opción --debug para mostrar la ventana del navegador para depuración:

npx -y fetcher-mcp --debug

Configuración MCP

Configure este servidor MCP en Claude Desktop:

En MacOS: ~/Library/Application Support/Claude/claude_desktop_config.json

En Windows: %APPDATA%/Claude/claude_desktop_config.json

{ "mcpServers": { "fetcher": { "command": "npx", "args": ["-y", "fetcher-mcp"] } } }

Características

  • fetch_url - Recupera el contenido de una página web desde una URL específica
    • Utiliza el navegador sin interfaz gráfica Playwright para analizar JavaScript
    • Admite la extracción inteligente del contenido principal y la conversión a Markdown
    • Admite los siguientes parámetros:
      • url : La URL de la página web a obtener (parámetro obligatorio)
      • timeout : Tiempo de espera de carga de la página en milisegundos, el valor predeterminado es 30000 (30 segundos)
      • waitUntil : especifica cuándo se considera completa la navegación, opciones: 'load', 'domcontentloaded', 'networkidle', 'commit', el valor predeterminado es 'load'
      • extractContent : si se debe extraer de forma inteligente el contenido principal, el valor predeterminado es verdadero
      • maxLength : Longitud máxima del contenido devuelto (en caracteres), el valor predeterminado es sin límite
      • returnHtml : si se debe devolver contenido HTML en lugar de Markdown, el valor predeterminado es falso
      • waitForNavigation : si se debe esperar una navegación adicional después de la carga inicial de la página (útil para sitios con verificación anti-bot), el valor predeterminado es falso
      • navigationTimeout : Tiempo máximo de espera para navegación adicional en milisegundos, el valor predeterminado es 10000 (10 segundos)
      • disableMedia : si se deben deshabilitar los recursos multimedia (imágenes, hojas de estilo, fuentes, medios), el valor predeterminado es verdadero
      • debug : si se habilita el modo de depuración (mostrando la ventana del navegador), anula el indicador de línea de comando --debug si se especifica
  • fetch_urls - Recupera por lotes el contenido de páginas web desde múltiples URL en paralelo
    • Utiliza la búsqueda paralela de múltiples pestañas para un mejor rendimiento
    • Devuelve resultados combinados con una clara separación entre páginas web
    • Admite los siguientes parámetros:
      • urls : Matriz de URL para obtener (parámetro obligatorio)
      • Los demás parámetros son los mismos que fetch_url

Consejos

Manejo de escenarios especiales de sitios web

Cómo lidiar con los mecanismos anti-rastreadores

  • Espere a que se complete la carga : para sitios web que utilizan CAPTCHA, redirecciones u otros mecanismos de verificación, incluya en su solicitud:
    Please wait for the page to fully load
    Esto utilizará el parámetro waitForNavigation: true .
  • Aumentar la duración del tiempo de espera : para sitios web que se cargan lentamente:
    Please set the page loading timeout to 60 seconds
    Esto ajusta los parámetros de timeout y navigationTimeout según corresponda.

Ajustes de recuperación de contenido

  • Conservar la estructura HTML original : cuando la extracción de contenido puede fallar:
    Please preserve the original HTML content
    Establece extractContent: false y returnHtml: true .
  • Obtener contenido completo de la página : cuando el contenido extraído es demasiado limitado:
    Please fetch the complete webpage content instead of just the main content
    Establece extractContent: false .
  • Devolver contenido como HTML : cuando se necesita el formato HTML en lugar del Markdown predeterminado:
    Please return the content in HTML format
    Establece returnHtml: true .

Depuración y autenticación

Habilitar el modo de depuración

  • Activación de depuración dinámica : para mostrar la ventana del navegador durante una operación de búsqueda específica:
    Please enable debug mode for this fetch operation
    Esto establece debug: true incluso si el servidor se inició sin el indicador --debug .

Uso de cookies personalizadas para la autenticación

  • Inicio de sesión manual : para iniciar sesión con sus propias credenciales:
    Please run in debug mode so I can manually log in to the website
    Establece debug: true o utiliza el indicador --debug , manteniendo la ventana del navegador abierta para el inicio de sesión manual.
  • Interactuar con el navegador de depuración : cuando el modo de depuración está habilitado:
    1. La ventana del navegador permanece abierta
    2. Puede iniciar sesión manualmente en el sitio web utilizando sus credenciales
    3. Una vez completado el inicio de sesión, se obtendrá el contenido con su sesión autenticada.
  • Habilitar la depuración para solicitudes específicas : incluso si el servidor ya está en ejecución, puede habilitar el modo de depuración para una solicitud específica:
    Please enable debug mode for this authentication step
    Establece debug: true solo para esta solicitud específica, abriendo la ventana del navegador para inicio de sesión manual.

Desarrollo

Instalar dependencias

npm install

Instalar Playwright Browser

Instalar los navegadores necesarios para Playwright:

npm run install-browser

Construir el servidor

npm run build

Depuración

Utilice MCP Inspector para depurar:

npm run inspector

También puedes habilitar el modo de navegador visible para la depuración:

node build/index.js --debug

Proyectos relacionados

  • g-search-mcp : Un potente servidor MCP para la búsqueda de Google que permite realizar búsquedas paralelas con múltiples palabras clave simultáneamente. Ideal para búsquedas por lotes y recopilación de datos.

Licencia

Con licencia MIT

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

Un servidor MCP que recupera contenido de páginas web mediante el navegador sin cabeza Playwright, capaz de extraer contenido principal y convertirlo al formato Markdown.

  1. Advantages
    1. Quick Start
      1. Debug Mode
    2. Configuration MCP
      1. Features
        1. Tips
          1. Handling Special Website Scenarios
          2. Debugging and Authentication
        2. Development
          1. Install Dependencies
          2. Install Playwright Browser
          3. Build the Server
        3. Debugging
          1. Related Projects
            1. License
              ID: o6qc1j6a1z