Skip to main content
Glama

AI Vision Debug MCP Server

Servidor MCP de AI Vision

Un servidor de Protocolo de Contexto de Modelo (MCP) que proporciona capacidades de análisis visual impulsadas por IA para Claude y otros asistentes de IA compatibles con MCP.

Características

  • URL de captura de pantalla : captura capturas de pantalla de cualquier sitio web proporcionando una URL
  • Análisis visual : analice elementos de la interfaz de usuario, diseños y contenido en capturas de pantalla
  • Operaciones de archivo : Lea y modifique archivos con precisión específica de línea
  • Generación de informes : cree informes completos de análisis de UI/UX
  • Sesión de depuración : mantener el contexto en múltiples pasos de análisis

Instalación

# Clone the repository git clone https://github.com/samihalawa/mcp-server-ai-vision.git cd mcp-server-ai-vision # Install dependencies npm install # Build the server npm run build

Uso

Iniciando el servidor

npm start

Configuración

Agregue el servidor a su configuración de MCP:

{ "servers": { "ai-vision": { "command": "/path/to/node", "args": ["/path/to/mcp-server-ai-vision/build/index.js"], "enabled": true, "port": 3005, "environment": { "NODE_PATH": "/path/to/node_modules", "PATH": "/usr/local/bin:/usr/bin:/bin", "GEMINI_API_KEY": "your-gemini-api-key" } } } }

Herramientas disponibles

URL de captura de pantalla

Tome una captura de pantalla de una URL usando un navegador web.

Parámetros:

  • url (cadena, obligatoria): URL para capturar una captura de pantalla (por ejemplo, http://localhost:4999 , https://google.com )
  • fullPage (booleano, opcional): Si se captura la página completa o solo la ventana gráfica. Predeterminado: falso
  • waitForSelector (cadena, opcional): selector CSS que se debe esperar antes de tomar una captura de pantalla
  • waitTime (número, opcional): Tiempo de espera en milisegundos antes de tomar la captura de pantalla. Predeterminado: 1000
analizar_pantalla

Analice una captura de pantalla con visión de IA.

Parámetros: Ninguno (usa la captura de pantalla más reciente)

leer_archivo

Leer el contenido de un archivo entre números de línea especificados.

Parámetros:

  • path (cadena): Ruta al archivo
  • startLine (número): Número de línea de inicio (indexado en 1)
  • endLine (número): Número de línea final (indexado en 1)
modificar_archivo

Modificar el contenido de un archivo entre números de línea especificados.

Parámetros:

  • path (cadena): Ruta al archivo
  • startLine (número): Número de línea de inicio a reemplazar (indexado a 1)
  • endLine (número): Número de línea final a reemplazar (indexado a 1)
  • content (cadena): Nuevo contenido para reemplazar las líneas especificadas
generar_informe

Genere un informe de análisis de UI/UX completo.

Parámetros:

  • testUrl (cadena): URL de la aplicación que se está probando
  • appName (cadena, opcional): nombre de la aplicación que se está analizando
  • date (cadena, opcional): Fecha del análisis (AAAA-MM-DD)
  • observations (objeto): Observaciones estructuradas como componentes, estado de datos, interacciones, etc.

Ejemplo de flujo de trabajo

  1. Tome una captura de pantalla de un sitio web:
    screenshot_url(url: "https://example.com")
  2. Analiza la captura de pantalla:
    analyze_screen()
  3. Generar un informe basado en el análisis:
    generate_report(testUrl: "https://example.com", observations: {...})

Requisitos

  • Node.js 14+
  • Dramaturgo para la automatización del navegador
  • Clave API de Gemini para el análisis de visión con IA

Licencia

Instituto Tecnológico de Massachusetts (MIT)

Install Server
A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Un servidor de protocolo de contexto de modelo que proporciona capacidades de visión de IA para analizar capturas de pantalla de la interfaz de usuario y ofrece herramientas para el análisis de pantalla, operaciones de archivos y generación de informes de UI/UX.

  1. Características
    1. Instalación
      1. Uso
        1. Iniciando el servidor
        2. Configuración
        3. Herramientas disponibles
      2. Ejemplo de flujo de trabajo
        1. Requisitos
          1. Licencia

            Related MCP Servers

            • A
              security
              A
              license
              A
              quality
              A Model Context Protocol server that provides browser automation capabilities using Playwright. This server enables LLMs to interact with web pages, take screenshots, and execute JavaScript in a real browser environment.
              Last updated -
              13
              10,911
              3,915
              TypeScript
              MIT License
              • Linux
              • Apple
            • A
              security
              A
              license
              A
              quality
              An official MCP server implementation that allows AI assistants to capture website screenshots through the ScreenshotOne API, enabling visual context from web pages during conversations.
              Last updated -
              1
              36
              21
              TypeScript
              MIT License
              • Apple
            • -
              security
              F
              license
              -
              quality
              A server that provides rich UI context and interaction capabilities to AI models, enabling deep understanding of user interfaces through visual analysis and precise interaction via Model Context Protocol.
              Last updated -
              24
              Python
              • Linux
              • Apple
            • -
              security
              A
              license
              -
              quality
              A Model Context Protocol server enabling AI assistants to generate images through OpenAI's DALL-E API with full support for all available options and fine-grained control.
              Last updated -
              14
              1
              JavaScript
              MIT License

            View all related MCP servers

            MCP directory API

            We provide all the information about MCP servers via our MCP API.

            curl -X GET 'https://glama.ai/api/mcp/v1/servers/samihalawa/mcp-server-ai-vision'

            If you have feedback or need assistance with the MCP directory API, please join our Discord server