🔍 Servidor Prysm MCP
El servidor MCP (Protocolo de contexto de modelo) de Prysm permite que los asistentes de IA como Claude y otros extraigan contenido web con gran precisión y flexibilidad.
✨ Características
- 🎯 Múltiples modos de raspado : elija entre los modos enfocado (velocidad), equilibrado (predeterminado) o profundo (minucioso).
- 🧠 Análisis de contenido : analiza las URL para determinar el mejor enfoque de raspado
- 📄 Flexibilidad de formato : Formatee los resultados como Markdown, HTML o JSON
- 🖼️ Soporte de imágenes : Extraiga e incluso descargue imágenes opcionalmente
- 🔍 Desplazamiento inteligente : configure el comportamiento de desplazamiento para aplicaciones de una sola página
- 📱 Responsive : Se adapta a diferentes diseños y estructuras de sitios web.
- 💾 Salida de archivo : guarde los resultados formateados en su directorio preferido
🚀 Inicio rápido
Instalación
Guías de integración
Proporcionamos guías de integración detalladas para aplicaciones populares compatibles con MCP:
- Guía de integración de cursores
- Guía de integración de escritorios de Claude
- Guía de integración del windsurf
- Guía de integración de Cline
- Guía de integración de Roo Code
- Guía de integración de Open WebUI
Uso
Hay varias formas de configurar Prysm MCP Server:
Uso de la configuración de mcp.json
Cree un archivo mcp.json
en la ubicación adecuada de acuerdo con las guías anteriores.
🛠️ Herramientas
El servidor proporciona las siguientes herramientas:
scrapeFocused
Web scraping rápido optimizado para mayor velocidad (menos desplazamientos, solo contenido principal).
Parámetros disponibles:
url
(obligatorio): URL para rasparmaxScrolls
(opcional): número máximo de intentos de desplazamiento (predeterminado: 5)scrollDelay
(opcional): Retraso entre desplazamientos en ms (predeterminado: 1000)scrapeImages
(opcional): si se deben incluir imágenes en los resultadosdownloadImages
(opcional): si desea descargar imágenes localmentemaxImages
(opcional): Máximo de imágenes a extraeroutput
(opcional): Directorio de salida para las imágenes descargadas
scrapeBalanced
Enfoque de raspado web equilibrado con buena cobertura y velocidad razonable.
Parámetros disponibles:
- Igual que
scrapeFocused
con diferentes valores predeterminados maxScrolls
predeterminado: 10scrollDelay
predeterminado: 2000- Agrega un parámetro de
timeout
para limitar el tiempo total de raspado (predeterminado: 30000 ms)
scrapeDeep
Web scraping de máxima extracción (más lento pero exhaustivo).
Parámetros disponibles:
- Igual que
scrapeFocused
con diferentes valores predeterminados maxScrolls
predeterminado: 20scrollDelay
predeterminado: 3000maxImages
predeterminado: 100
formatResult
Formatee los datos extraídos en diferentes formatos estructurados (Markdown, HTML, JSON).
Parámetros disponibles:
data
(obligatorio): Los datos extraídos para dar formatoformat
(obligatorio): Formato de salida: "markdown", "html" o "json"includeImages
(opcional): si se deben incluir imágenes en la salida (valor predeterminado: verdadero)output
(opcional): Ruta del archivo para guardar el resultado formateado
También puede guardar resultados formateados en un archivo especificando una ruta de salida:
⚙️ Configuración
Directorio de salida
De forma predeterminada, al guardar resultados formateados, los archivos se guardarán en ~/prysm-mcp/output/
. Puede personalizar esto de dos maneras:
- Variables de entorno : Establezca las variables de entorno en sus directorios preferidos:
- Parámetro de la herramienta : especifique las rutas de salida directamente al llamar a las herramientas:
- Configuración de MCP : en su archivo de configuración de MCP (por ejemplo,
.cursor/mcp.json
), puede configurar estas variables de entorno:
Si no se especifica PRYSM_IMAGE_OUTPUT_DIR
, se usará de manera predeterminada una subcarpeta llamada images
dentro de PRYSM_OUTPUT_DIR
.
Si solo proporciona una ruta relativa o un nombre de archivo, se guardará en relación con el directorio de salida configurado.
Reglas de manejo de rutas
La herramienta formatResult
maneja las rutas de las siguientes maneras:
- Rutas absolutas : se utilizan exactamente como se proporciona (
/home/user/file.md
) - Rutas relativas : se guardan en relación con el directorio de salida configurado (
subfolder/file.md
) - Solo nombre de archivo : guardado en el directorio de salida configurado (
output.md
) - Ruta del directorio : si la ruta apunta a un directorio, se genera automáticamente un nombre de archivo según el contenido y la marca de tiempo
🏗️ Desarrollo
Corriendo a través de npx
Puedes ejecutar el servidor directamente con npx sin instalar:
📋 Licencia
Instituto Tecnológico de Massachusetts (MIT)
🙏 Créditos
Desarrollado por Pink Pixel
Desarrollado por el Protocolo de Contexto Modelo y Puppeteer
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Un servidor de protocolo de contexto de modelo que permite a los asistentes de IA extraer contenido web con gran precisión y flexibilidad, admitiendo múltiples modos de extracción y opciones de formato de contenido.
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityA production-ready Model Context Protocol server that enables language models to leverage AI-powered web scraping capabilities, offering tools for transforming webpages to markdown, extracting structured data, and executing AI-powered web searches.Last updated -316PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that allows LLMs to interact with web content through standardized tools, currently supporting web scraping functionality.Last updated -PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that enables AI assistants to perform advanced web scraping, crawling, searching, and data extraction through the Firecrawl API.Last updated -7,117MIT License
- AsecurityFlicenseAqualityA Model Context Protocol server that enables AI assistants to perform real-time web searches, retrieving up-to-date information from the internet via a Crawler API.Last updated -1448JavaScript
Appeared in Searches
- Techniques for Scraping Dynamic Websites with JavaScript and Handling CAPTCHA or Proxy Issues
- Scraping a marketplace to generate a JSON file with name, description, and link
- Search Engine Optimization (SEO) Resources
- Using tools to analyze a customer's website for technical stack, traffic, and search queries
- Accessing a webcheck server to retrieve JSON data for website analysis