Prysm MCP Server

by pinkpixel-dev
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Allows formatting scraped web content into structured markdown, with support for including images and saving formatted results to files

  • Uses Puppeteer to perform web scraping with capabilities like smart scrolling for single-page applications and content analysis to determine optimal scraping approaches

🔍 Servidor Prysm MCP

El servidor MCP (Protocolo de contexto de modelo) de Prysm permite que los asistentes de IA como Claude y otros extraigan contenido web con gran precisión y flexibilidad.

✨ Características

  • 🎯 Múltiples modos de raspado : elija entre los modos enfocado (velocidad), equilibrado (predeterminado) o profundo (minucioso).
  • 🧠 Análisis de contenido : analiza las URL para determinar el mejor enfoque de raspado
  • 📄 Flexibilidad de formato : Formatee los resultados como Markdown, HTML o JSON
  • 🖼️ Soporte de imágenes : Extraiga e incluso descargue imágenes opcionalmente
  • 🔍 Desplazamiento inteligente : configure el comportamiento de desplazamiento para aplicaciones de una sola página
  • 📱 Responsive : Se adapta a diferentes diseños y estructuras de sitios web.
  • 💾 Salida de archivo : guarde los resultados formateados en su directorio preferido

🚀 Inicio rápido

Instalación

# Recommended: Install the LLM-optimized version npm install -g @pinkpixel/prysm-mcp # Or install the standard version npm install -g prysm-mcp # Or clone and build git clone https://github.com/pinkpixel-dev/prysm-mcp.git cd prysm-mcp npm install npm run build

Guías de integración

Proporcionamos guías de integración detalladas para aplicaciones populares compatibles con MCP:

Uso

Hay varias formas de configurar Prysm MCP Server:

Uso de la configuración de mcp.json

Cree un archivo mcp.json en la ubicación adecuada de acuerdo con las guías anteriores.

{ "mcpServers": { "prysm-scraper": { "description": "Prysm web scraper with custom output directories", "command": "npx", "args": [ "-y", "@pinkpixel/prysm-mcp" ], "env": { "PRYSM_OUTPUT_DIR": "${workspaceFolder}/scrape_results", "PRYSM_IMAGE_OUTPUT_DIR": "${workspaceFolder}/scrape_results/images" } } } }

🛠️ Herramientas

El servidor proporciona las siguientes herramientas:

scrapeFocused

Web scraping rápido optimizado para mayor velocidad (menos desplazamientos, solo contenido principal).

Please scrape https://example.com using the focused mode

Parámetros disponibles:

  • url (obligatorio): URL para raspar
  • maxScrolls (opcional): número máximo de intentos de desplazamiento (predeterminado: 5)
  • scrollDelay (opcional): Retraso entre desplazamientos en ms (predeterminado: 1000)
  • scrapeImages (opcional): si se deben incluir imágenes en los resultados
  • downloadImages (opcional): si desea descargar imágenes localmente
  • maxImages (opcional): Máximo de imágenes a extraer
  • output (opcional): Directorio de salida para las imágenes descargadas

scrapeBalanced

Enfoque de raspado web equilibrado con buena cobertura y velocidad razonable.

Please scrape https://example.com using the balanced mode

Parámetros disponibles:

  • Igual que scrapeFocused con diferentes valores predeterminados
  • maxScrolls predeterminado: 10
  • scrollDelay predeterminado: 2000
  • Agrega un parámetro de timeout para limitar el tiempo total de raspado (predeterminado: 30000 ms)

scrapeDeep

Web scraping de máxima extracción (más lento pero exhaustivo).

Please scrape https://example.com using the deep mode with maximum scrolls

Parámetros disponibles:

  • Igual que scrapeFocused con diferentes valores predeterminados
  • maxScrolls predeterminado: 20
  • scrollDelay predeterminado: 3000
  • maxImages predeterminado: 100

formatResult

Formatee los datos extraídos en diferentes formatos estructurados (Markdown, HTML, JSON).

Format the scraped data as markdown

Parámetros disponibles:

  • data (obligatorio): Los datos extraídos para dar formato
  • format (obligatorio): Formato de salida: "markdown", "html" o "json"
  • includeImages (opcional): si se deben incluir imágenes en la salida (valor predeterminado: verdadero)
  • output (opcional): Ruta del archivo para guardar el resultado formateado

También puede guardar resultados formateados en un archivo especificando una ruta de salida:

Format the scraped data as markdown and save it to "my-results/output.md"

⚙️ Configuración

Directorio de salida

De forma predeterminada, al guardar resultados formateados, los archivos se guardarán en ~/prysm-mcp/output/ . Puede personalizar esto de dos maneras:

  1. Variables de entorno : Establezca las variables de entorno en sus directorios preferidos:
# Linux/macOS export PRYSM_OUTPUT_DIR="/path/to/custom/directory" export PRYSM_IMAGE_OUTPUT_DIR="/path/to/custom/image/directory" # Windows (Command Prompt) set PRYSM_OUTPUT_DIR=C:\path\to\custom\directory set PRYSM_IMAGE_OUTPUT_DIR=C:\path\to\custom\image\directory # Windows (PowerShell) $env:PRYSM_OUTPUT_DIR="C:\path\to\custom\directory" $env:PRYSM_IMAGE_OUTPUT_DIR="C:\path\to\custom\image\directory"
  1. Parámetro de la herramienta : especifique las rutas de salida directamente al llamar a las herramientas:
# For general results Format the scraped data as markdown and save it to "/absolute/path/to/file.md" # For image downloads when scraping Please scrape https://example.com and download images to "/absolute/path/to/images"
  1. Configuración de MCP : en su archivo de configuración de MCP (por ejemplo, .cursor/mcp.json ), puede configurar estas variables de entorno:
{ "mcpServers": { "prysm-scraper": { "command": "npx", "args": ["-y", "@pinkpixel/prysm-mcp"], "env": { "PRYSM_OUTPUT_DIR": "${workspaceFolder}/scrape_results", "PRYSM_IMAGE_OUTPUT_DIR": "${workspaceFolder}/scrape_results/images" } } } }

Si no se especifica PRYSM_IMAGE_OUTPUT_DIR , se usará de manera predeterminada una subcarpeta llamada images dentro de PRYSM_OUTPUT_DIR .

Si solo proporciona una ruta relativa o un nombre de archivo, se guardará en relación con el directorio de salida configurado.

Reglas de manejo de rutas

La herramienta formatResult maneja las rutas de las siguientes maneras:

  • Rutas absolutas : se utilizan exactamente como se proporciona ( /home/user/file.md )
  • Rutas relativas : se guardan en relación con el directorio de salida configurado ( subfolder/file.md )
  • Solo nombre de archivo : guardado en el directorio de salida configurado ( output.md )
  • Ruta del directorio : si la ruta apunta a un directorio, se genera automáticamente un nombre de archivo según el contenido y la marca de tiempo

🏗️ Desarrollo

# Install dependencies npm install # Build the project npm run build # Run the server locally node bin/prysm-mcp # Debug MCP communication DEBUG=mcp:* node bin/prysm-mcp # Set custom output directories PRYSM_OUTPUT_DIR=./my-output PRYSM_IMAGE_OUTPUT_DIR=./my-output/images node bin/prysm-mcp

Corriendo a través de npx

Puedes ejecutar el servidor directamente con npx sin instalar:

# Run with default settings npx @pinkpixel/prysm-mcp # Run with custom output directories PRYSM_OUTPUT_DIR=./my-output PRYSM_IMAGE_OUTPUT_DIR=./my-output/images npx @pinkpixel/prysm-mcp

📋 Licencia

Instituto Tecnológico de Massachusetts (MIT)

🙏 Créditos

Desarrollado por Pink Pixel

Desarrollado por el Protocolo de Contexto Modelo y Puppeteer

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

Un servidor de protocolo de contexto de modelo que permite a los asistentes de IA extraer contenido web con gran precisión y flexibilidad, admitiendo múltiples modos de extracción y opciones de formato de contenido.

  1. ✨ Features
    1. 🚀 Quick Start
      1. Installation
      2. Integration Guides
      3. Usage
    2. 🛠️ Tools
      1. scrapeFocused
      2. scrapeBalanced
      3. scrapeDeep
      4. formatResult
    3. ⚙️ Configuration
      1. Output Directory
      2. Path Handling Rules
    4. 🏗️ Development
      1. Running via npx
    5. 📋 License
      1. 🙏 Credits
        ID: i1xotvaxqx