local-only server
The server can only run on the client’s local machine because it depends on local resources.
Integrations
Allows formatting scraped web content into structured markdown, with support for including images and saving formatted results to files
Uses Puppeteer to perform web scraping with capabilities like smart scrolling for single-page applications and content analysis to determine optimal scraping approaches
🔍 Servidor Prysm MCP
El servidor MCP (Protocolo de contexto de modelo) de Prysm permite que los asistentes de IA como Claude y otros extraigan contenido web con gran precisión y flexibilidad.
✨ Características
- 🎯 Múltiples modos de raspado : elija entre los modos enfocado (velocidad), equilibrado (predeterminado) o profundo (minucioso).
- 🧠 Análisis de contenido : analiza las URL para determinar el mejor enfoque de raspado
- 📄 Flexibilidad de formato : Formatee los resultados como Markdown, HTML o JSON
- 🖼️ Soporte de imágenes : Extraiga e incluso descargue imágenes opcionalmente
- 🔍 Desplazamiento inteligente : configure el comportamiento de desplazamiento para aplicaciones de una sola página
- 📱 Responsive : Se adapta a diferentes diseños y estructuras de sitios web.
- 💾 Salida de archivo : guarde los resultados formateados en su directorio preferido
🚀 Inicio rápido
Instalación
Guías de integración
Proporcionamos guías de integración detalladas para aplicaciones populares compatibles con MCP:
- Guía de integración de cursores
- Guía de integración de escritorios de Claude
- Guía de integración del windsurf
- Guía de integración de Cline
- Guía de integración de Roo Code
- Guía de integración de Open WebUI
Uso
Hay varias formas de configurar Prysm MCP Server:
Uso de la configuración de mcp.json
Cree un archivo mcp.json
en la ubicación adecuada de acuerdo con las guías anteriores.
🛠️ Herramientas
El servidor proporciona las siguientes herramientas:
scrapeFocused
Web scraping rápido optimizado para mayor velocidad (menos desplazamientos, solo contenido principal).
Parámetros disponibles:
url
(obligatorio): URL para rasparmaxScrolls
(opcional): número máximo de intentos de desplazamiento (predeterminado: 5)scrollDelay
(opcional): Retraso entre desplazamientos en ms (predeterminado: 1000)scrapeImages
(opcional): si se deben incluir imágenes en los resultadosdownloadImages
(opcional): si desea descargar imágenes localmentemaxImages
(opcional): Máximo de imágenes a extraeroutput
(opcional): Directorio de salida para las imágenes descargadas
scrapeBalanced
Enfoque de raspado web equilibrado con buena cobertura y velocidad razonable.
Parámetros disponibles:
- Igual que
scrapeFocused
con diferentes valores predeterminados maxScrolls
predeterminado: 10scrollDelay
predeterminado: 2000- Agrega un parámetro de
timeout
para limitar el tiempo total de raspado (predeterminado: 30000 ms)
scrapeDeep
Web scraping de máxima extracción (más lento pero exhaustivo).
Parámetros disponibles:
- Igual que
scrapeFocused
con diferentes valores predeterminados maxScrolls
predeterminado: 20scrollDelay
predeterminado: 3000maxImages
predeterminado: 100
formatResult
Formatee los datos extraídos en diferentes formatos estructurados (Markdown, HTML, JSON).
Parámetros disponibles:
data
(obligatorio): Los datos extraídos para dar formatoformat
(obligatorio): Formato de salida: "markdown", "html" o "json"includeImages
(opcional): si se deben incluir imágenes en la salida (valor predeterminado: verdadero)output
(opcional): Ruta del archivo para guardar el resultado formateado
También puede guardar resultados formateados en un archivo especificando una ruta de salida:
⚙️ Configuración
Directorio de salida
De forma predeterminada, al guardar resultados formateados, los archivos se guardarán en ~/prysm-mcp/output/
. Puede personalizar esto de dos maneras:
- Variables de entorno : Establezca las variables de entorno en sus directorios preferidos:
- Parámetro de la herramienta : especifique las rutas de salida directamente al llamar a las herramientas:
- Configuración de MCP : en su archivo de configuración de MCP (por ejemplo,
.cursor/mcp.json
), puede configurar estas variables de entorno:
Si no se especifica PRYSM_IMAGE_OUTPUT_DIR
, se usará de manera predeterminada una subcarpeta llamada images
dentro de PRYSM_OUTPUT_DIR
.
Si solo proporciona una ruta relativa o un nombre de archivo, se guardará en relación con el directorio de salida configurado.
Reglas de manejo de rutas
La herramienta formatResult
maneja las rutas de las siguientes maneras:
- Rutas absolutas : se utilizan exactamente como se proporciona (
/home/user/file.md
) - Rutas relativas : se guardan en relación con el directorio de salida configurado (
subfolder/file.md
) - Solo nombre de archivo : guardado en el directorio de salida configurado (
output.md
) - Ruta del directorio : si la ruta apunta a un directorio, se genera automáticamente un nombre de archivo según el contenido y la marca de tiempo
🏗️ Desarrollo
Corriendo a través de npx
Puedes ejecutar el servidor directamente con npx sin instalar:
📋 Licencia
Instituto Tecnológico de Massachusetts (MIT)
🙏 Créditos
Desarrollado por Pink Pixel
Desarrollado por el Protocolo de Contexto Modelo y Puppeteer
You must be authenticated.
Un servidor de protocolo de contexto de modelo que permite a los asistentes de IA extraer contenido web con gran precisión y flexibilidad, admitiendo múltiples modos de extracción y opciones de formato de contenido.
Related Resources
Appeared in Searches
- Scraping a marketplace to generate a JSON file with name, description, and link
- Search Engine Optimization (SEO) Resources
- Using tools to analyze a customer's website for technical stack, traffic, and search queries
- Accessing a webcheck server to retrieve JSON data for website analysis
- Tools and techniques for scraping website data, creating event calendars, and building YouTube playlists