🔍 Servidor Prysm MCP
El servidor MCP (Protocolo de contexto de modelo) de Prysm permite que los asistentes de IA como Claude y otros extraigan contenido web con gran precisión y flexibilidad.
✨ Características
🎯 Múltiples modos de raspado : elija entre los modos enfocado (velocidad), equilibrado (predeterminado) o profundo (minucioso).
🧠 Análisis de contenido : analiza las URL para determinar el mejor enfoque de raspado
📄 Flexibilidad de formato : Formatee los resultados como Markdown, HTML o JSON
🖼️ Soporte de imágenes : Extraiga e incluso descargue imágenes opcionalmente
🔍 Desplazamiento inteligente : configure el comportamiento de desplazamiento para aplicaciones de una sola página
📱 Responsive : Se adapta a diferentes diseños y estructuras de sitios web.
💾 Salida de archivo : guarde los resultados formateados en su directorio preferido
Related MCP server: Firecrawl MCP Server
🚀 Inicio rápido
Instalación
# Recommended: Install the LLM-optimized version
npm install -g @pinkpixel/prysm-mcp
# Or install the standard version
npm install -g prysm-mcp
# Or clone and build
git clone https://github.com/pinkpixel-dev/prysm-mcp.git
cd prysm-mcp
npm install
npm run buildGuías de integración
Proporcionamos guías de integración detalladas para aplicaciones populares compatibles con MCP:
Uso
Hay varias formas de configurar Prysm MCP Server:
Uso de la configuración de mcp.json
Cree un archivo mcp.json en la ubicación adecuada de acuerdo con las guías anteriores.
{
"mcpServers": {
"prysm-scraper": {
"description": "Prysm web scraper with custom output directories",
"command": "npx",
"args": [
"-y",
"@pinkpixel/prysm-mcp"
],
"env": {
"PRYSM_OUTPUT_DIR": "${workspaceFolder}/scrape_results",
"PRYSM_IMAGE_OUTPUT_DIR": "${workspaceFolder}/scrape_results/images"
}
}
}
}🛠️ Herramientas
El servidor proporciona las siguientes herramientas:
scrapeFocused
Web scraping rápido optimizado para mayor velocidad (menos desplazamientos, solo contenido principal).
Please scrape https://example.com using the focused modeParámetros disponibles:
url(obligatorio): URL para rasparmaxScrolls(opcional): número máximo de intentos de desplazamiento (predeterminado: 5)scrollDelay(opcional): Retraso entre desplazamientos en ms (predeterminado: 1000)scrapeImages(opcional): si se deben incluir imágenes en los resultadosdownloadImages(opcional): si desea descargar imágenes localmentemaxImages(opcional): Máximo de imágenes a extraeroutput(opcional): Directorio de salida para las imágenes descargadas
scrapeBalanced
Enfoque de raspado web equilibrado con buena cobertura y velocidad razonable.
Please scrape https://example.com using the balanced modeParámetros disponibles:
Igual que
scrapeFocusedcon diferentes valores predeterminadosmaxScrollspredeterminado: 10scrollDelaypredeterminado: 2000Agrega un parámetro de
timeoutpara limitar el tiempo total de raspado (predeterminado: 30000 ms)
scrapeDeep
Web scraping de máxima extracción (más lento pero exhaustivo).
Please scrape https://example.com using the deep mode with maximum scrollsParámetros disponibles:
Igual que
scrapeFocusedcon diferentes valores predeterminadosmaxScrollspredeterminado: 20scrollDelaypredeterminado: 3000maxImagespredeterminado: 100
formatResult
Formatee los datos extraídos en diferentes formatos estructurados (Markdown, HTML, JSON).
Format the scraped data as markdownParámetros disponibles:
data(obligatorio): Los datos extraídos para dar formatoformat(obligatorio): Formato de salida: "markdown", "html" o "json"includeImages(opcional): si se deben incluir imágenes en la salida (valor predeterminado: verdadero)output(opcional): Ruta del archivo para guardar el resultado formateado
También puede guardar resultados formateados en un archivo especificando una ruta de salida:
Format the scraped data as markdown and save it to "my-results/output.md"⚙️ Configuración
Directorio de salida
De forma predeterminada, al guardar resultados formateados, los archivos se guardarán en ~/prysm-mcp/output/ . Puede personalizar esto de dos maneras:
Variables de entorno : Establezca las variables de entorno en sus directorios preferidos:
# Linux/macOS
export PRYSM_OUTPUT_DIR="/path/to/custom/directory"
export PRYSM_IMAGE_OUTPUT_DIR="/path/to/custom/image/directory"
# Windows (Command Prompt)
set PRYSM_OUTPUT_DIR=C:\path\to\custom\directory
set PRYSM_IMAGE_OUTPUT_DIR=C:\path\to\custom\image\directory
# Windows (PowerShell)
$env:PRYSM_OUTPUT_DIR="C:\path\to\custom\directory"
$env:PRYSM_IMAGE_OUTPUT_DIR="C:\path\to\custom\image\directory"Parámetro de la herramienta : especifique las rutas de salida directamente al llamar a las herramientas:
# For general results
Format the scraped data as markdown and save it to "/absolute/path/to/file.md"
# For image downloads when scraping
Please scrape https://example.com and download images to "/absolute/path/to/images"Configuración de MCP : en su archivo de configuración de MCP (por ejemplo,
.cursor/mcp.json), puede configurar estas variables de entorno:
{
"mcpServers": {
"prysm-scraper": {
"command": "npx",
"args": ["-y", "@pinkpixel/prysm-mcp"],
"env": {
"PRYSM_OUTPUT_DIR": "${workspaceFolder}/scrape_results",
"PRYSM_IMAGE_OUTPUT_DIR": "${workspaceFolder}/scrape_results/images"
}
}
}
}Si no se especifica PRYSM_IMAGE_OUTPUT_DIR , se usará de manera predeterminada una subcarpeta llamada images dentro de PRYSM_OUTPUT_DIR .
Si solo proporciona una ruta relativa o un nombre de archivo, se guardará en relación con el directorio de salida configurado.
Reglas de manejo de rutas
La herramienta formatResult maneja las rutas de las siguientes maneras:
Rutas absolutas : se utilizan exactamente como se proporciona (
/home/user/file.md)Rutas relativas : se guardan en relación con el directorio de salida configurado (
subfolder/file.md)Solo nombre de archivo : guardado en el directorio de salida configurado (
output.md)Ruta del directorio : si la ruta apunta a un directorio, se genera automáticamente un nombre de archivo según el contenido y la marca de tiempo
🏗️ Desarrollo
# Install dependencies
npm install
# Build the project
npm run build
# Run the server locally
node bin/prysm-mcp
# Debug MCP communication
DEBUG=mcp:* node bin/prysm-mcp
# Set custom output directories
PRYSM_OUTPUT_DIR=./my-output PRYSM_IMAGE_OUTPUT_DIR=./my-output/images node bin/prysm-mcpCorriendo a través de npx
Puedes ejecutar el servidor directamente con npx sin instalar:
# Run with default settings
npx @pinkpixel/prysm-mcp
# Run with custom output directories
PRYSM_OUTPUT_DIR=./my-output PRYSM_IMAGE_OUTPUT_DIR=./my-output/images npx @pinkpixel/prysm-mcp📋 Licencia
Instituto Tecnológico de Massachusetts (MIT)
🙏 Créditos
Desarrollado por Pink Pixel
Desarrollado por el Protocolo de Contexto Modelo y Puppeteer