AI Vision Debug MCP Server

by samihalawa
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Servidor MCP de AI Vision

Un servidor de Protocolo de Contexto de Modelo (MCP) que proporciona capacidades de análisis visual impulsadas por IA para Claude y otros asistentes de IA compatibles con MCP.

Características

  • URL de captura de pantalla : captura capturas de pantalla de cualquier sitio web proporcionando una URL
  • Análisis visual : analice elementos de la interfaz de usuario, diseños y contenido en capturas de pantalla
  • Operaciones de archivo : Lea y modifique archivos con precisión específica de línea
  • Generación de informes : cree informes completos de análisis de UI/UX
  • Sesión de depuración : mantener el contexto en múltiples pasos de análisis

Instalación

# Clone the repository git clone https://github.com/samihalawa/mcp-server-ai-vision.git cd mcp-server-ai-vision # Install dependencies npm install # Build the server npm run build

Uso

Iniciando el servidor

npm start

Configuración

Agregue el servidor a su configuración de MCP:

{ "servers": { "ai-vision": { "command": "/path/to/node", "args": ["/path/to/mcp-server-ai-vision/build/index.js"], "enabled": true, "port": 3005, "environment": { "NODE_PATH": "/path/to/node_modules", "PATH": "/usr/local/bin:/usr/bin:/bin", "GEMINI_API_KEY": "your-gemini-api-key" } } } }

Herramientas disponibles

URL de captura de pantalla

Tome una captura de pantalla de una URL usando un navegador web.

Parámetros:

  • url (cadena, obligatoria): URL para capturar una captura de pantalla (por ejemplo, http://localhost:4999 , https://google.com )
  • fullPage (booleano, opcional): Si se captura la página completa o solo la ventana gráfica. Predeterminado: falso
  • waitForSelector (cadena, opcional): selector CSS que se debe esperar antes de tomar una captura de pantalla
  • waitTime (número, opcional): Tiempo de espera en milisegundos antes de tomar la captura de pantalla. Predeterminado: 1000

analizar_pantalla

Analice una captura de pantalla con visión de IA.

Parámetros: Ninguno (usa la captura de pantalla más reciente)

leer_archivo

Leer el contenido de un archivo entre números de línea especificados.

Parámetros:

  • path (cadena): Ruta al archivo
  • startLine (número): Número de línea de inicio (indexado en 1)
  • endLine (número): Número de línea final (indexado en 1)

modificar_archivo

Modificar el contenido de un archivo entre números de línea especificados.

Parámetros:

  • path (cadena): Ruta al archivo
  • startLine (número): Número de línea de inicio a reemplazar (indexado a 1)
  • endLine (número): Número de línea final a reemplazar (indexado a 1)
  • content (cadena): Nuevo contenido para reemplazar las líneas especificadas

generar_informe

Genere un informe de análisis de UI/UX completo.

Parámetros:

  • testUrl (cadena): URL de la aplicación que se está probando
  • appName (cadena, opcional): nombre de la aplicación que se está analizando
  • date (cadena, opcional): Fecha del análisis (AAAA-MM-DD)
  • observations (objeto): Observaciones estructuradas como componentes, estado de datos, interacciones, etc.

Ejemplo de flujo de trabajo

  1. Tome una captura de pantalla de un sitio web:
    screenshot_url(url: "https://example.com")
  2. Analiza la captura de pantalla:
    analyze_screen()
  3. Generar un informe basado en el análisis:
    generate_report(testUrl: "https://example.com", observations: {...})

Requisitos

  • Node.js 14+
  • Dramaturgo para la automatización del navegador
  • Clave API de Gemini para el análisis de visión con IA

Licencia

Instituto Tecnológico de Massachusetts (MIT)

-
security - not tested
F
license - not found
-
quality - not tested

Un servidor de protocolo de contexto de modelo que proporciona capacidades de visión de IA para analizar capturas de pantalla de la interfaz de usuario y ofrece herramientas para el análisis de pantalla, operaciones de archivos y generación de informes de UI/UX.

  1. Features
    1. Installation
      1. Usage
        1. Starting the Server
        2. Configuration
        3. Available Tools
      2. Example Workflow
        1. Requirements
          1. License
            ID: lbb1el5owd