local-only server
The server can only run on the client’s local machine because it depends on local resources.
Integrations
Enables fetching and processing of dynamic web content that relies on JavaScript, executing client-side scripts to render full page content that traditional scrapers would miss.
Offers conversion of fetched web content to Markdown format, making it easy to integrate the retrieved information into markdown-based applications.
MCP de obtención
Servidor MCP para obtener contenido de páginas web mediante el navegador sin interfaz gráfica Playwright.
Ventajas
- Compatibilidad con JavaScript : a diferencia de los raspadores web tradicionales, Fetcher MCP utiliza Playwright para ejecutar JavaScript, lo que lo hace capaz de manejar contenido web dinámico y aplicaciones web modernas.
- Extracción de contenido inteligente : el algoritmo de legibilidad integrado extrae automáticamente el contenido principal de las páginas web, eliminando anuncios, navegación y otros elementos no esenciales.
- Formato de salida flexible : admite formatos de salida HTML y Markdown, lo que facilita la integración con varias aplicaciones posteriores.
- Procesamiento paralelo : la herramienta
fetch_urls
permite la obtención simultánea de múltiples URL, lo que mejora significativamente la eficiencia de las operaciones por lotes. - Optimización de recursos : bloquea automáticamente los recursos innecesarios (imágenes, hojas de estilo, fuentes, medios) para reducir el uso del ancho de banda y mejorar el rendimiento.
- Manejo robusto de errores : el manejo y registro de errores integrales garantizan un funcionamiento confiable incluso cuando se trata de páginas web problemáticas.
- Parámetros configurables : control detallado de los tiempos de espera, la extracción de contenido y el formato de salida para adaptarse a diferentes casos de uso.
Inicio rápido
Ejecutar directamente con npx:
Primera configuración: instale el navegador requerido ejecutando el siguiente comando en su terminal:
Modo de depuración
Ejecute con la opción --debug
para mostrar la ventana del navegador para depuración:
Configuración MCP
Configure este servidor MCP en Claude Desktop:
En MacOS: ~/Library/Application Support/Claude/claude_desktop_config.json
En Windows: %APPDATA%/Claude/claude_desktop_config.json
Características
fetch_url
- Recupera el contenido de una página web desde una URL específica- Utiliza el navegador sin interfaz gráfica Playwright para analizar JavaScript
- Admite la extracción inteligente del contenido principal y la conversión a Markdown
- Admite los siguientes parámetros:
url
: La URL de la página web a obtener (parámetro obligatorio)timeout
: Tiempo de espera de carga de la página en milisegundos, el valor predeterminado es 30000 (30 segundos)waitUntil
: especifica cuándo se considera completa la navegación, opciones: 'load', 'domcontentloaded', 'networkidle', 'commit', el valor predeterminado es 'load'extractContent
: si se debe extraer de forma inteligente el contenido principal, el valor predeterminado es verdaderomaxLength
: Longitud máxima del contenido devuelto (en caracteres), el valor predeterminado es sin límitereturnHtml
: si se debe devolver contenido HTML en lugar de Markdown, el valor predeterminado es falsowaitForNavigation
: si se debe esperar una navegación adicional después de la carga inicial de la página (útil para sitios con verificación anti-bot), el valor predeterminado es falsonavigationTimeout
: Tiempo máximo de espera para navegación adicional en milisegundos, el valor predeterminado es 10000 (10 segundos)disableMedia
: si se deben deshabilitar los recursos multimedia (imágenes, hojas de estilo, fuentes, medios), el valor predeterminado es verdaderodebug
: si se habilita el modo de depuración (mostrando la ventana del navegador), anula el indicador de línea de comando --debug si se especifica
fetch_urls
- Recupera por lotes el contenido de páginas web desde múltiples URL en paralelo- Utiliza la búsqueda paralela de múltiples pestañas para un mejor rendimiento
- Devuelve resultados combinados con una clara separación entre páginas web
- Admite los siguientes parámetros:
urls
: Matriz de URL para obtener (parámetro obligatorio)- Los demás parámetros son los mismos que
fetch_url
Consejos
Manejo de escenarios especiales de sitios web
Cómo lidiar con los mecanismos anti-rastreadores
- Espere a que se complete la carga : para sitios web que utilizan CAPTCHA, redirecciones u otros mecanismos de verificación, incluya en su solicitud:Esto utilizará el parámetroCopy
waitForNavigation: true
. - Aumentar la duración del tiempo de espera : para sitios web que se cargan lentamente:Esto ajusta los parámetros deCopy
timeout
ynavigationTimeout
según corresponda.
Ajustes de recuperación de contenido
- Conservar la estructura HTML original : cuando la extracción de contenido puede fallar:EstableceCopy
extractContent: false
yreturnHtml: true
. - Obtener contenido completo de la página : cuando el contenido extraído es demasiado limitado:EstableceCopy
extractContent: false
. - Devolver contenido como HTML : cuando se necesita el formato HTML en lugar del Markdown predeterminado:EstableceCopy
returnHtml: true
.
Depuración y autenticación
Habilitar el modo de depuración
- Activación de depuración dinámica : para mostrar la ventana del navegador durante una operación de búsqueda específica:Esto estableceCopy
debug: true
incluso si el servidor se inició sin el indicador--debug
.
Uso de cookies personalizadas para la autenticación
- Inicio de sesión manual : para iniciar sesión con sus propias credenciales:EstableceCopy
debug: true
o utiliza el indicador--debug
, manteniendo la ventana del navegador abierta para el inicio de sesión manual. - Interactuar con el navegador de depuración : cuando el modo de depuración está habilitado:
- La ventana del navegador permanece abierta
- Puede iniciar sesión manualmente en el sitio web utilizando sus credenciales
- Una vez completado el inicio de sesión, se obtendrá el contenido con su sesión autenticada.
- Habilitar la depuración para solicitudes específicas : incluso si el servidor ya está en ejecución, puede habilitar el modo de depuración para una solicitud específica:EstableceCopy
debug: true
solo para esta solicitud específica, abriendo la ventana del navegador para inicio de sesión manual.
Desarrollo
Instalar dependencias
Instalar Playwright Browser
Instalar los navegadores necesarios para Playwright:
Construir el servidor
Depuración
Utilice MCP Inspector para depurar:
También puedes habilitar el modo de navegador visible para la depuración:
Proyectos relacionados
- g-search-mcp : Un potente servidor MCP para la búsqueda de Google que permite realizar búsquedas paralelas con múltiples palabras clave simultáneamente. Ideal para búsquedas por lotes y recopilación de datos.
Licencia
Con licencia MIT
You must be authenticated.
Tools
Un servidor MCP que recupera contenido de páginas web mediante el navegador sin cabeza Playwright, capaz de extraer contenido principal y convertirlo al formato Markdown.