Servidor MCP de AI Vision
Un servidor de Protocolo de Contexto de Modelo (MCP) que proporciona capacidades de análisis visual impulsadas por IA para Claude y otros asistentes de IA compatibles con MCP.
Características
- URL de captura de pantalla : captura capturas de pantalla de cualquier sitio web proporcionando una URL
- Análisis visual : analice elementos de la interfaz de usuario, diseños y contenido en capturas de pantalla
- Operaciones de archivo : Lea y modifique archivos con precisión específica de línea
- Generación de informes : cree informes completos de análisis de UI/UX
- Sesión de depuración : mantener el contexto en múltiples pasos de análisis
Instalación
Uso
Iniciando el servidor
Configuración
Agregue el servidor a su configuración de MCP:
Herramientas disponibles
URL de captura de pantalla
Tome una captura de pantalla de una URL usando un navegador web.
Parámetros:
url
(cadena, obligatoria): URL para capturar una captura de pantalla (por ejemplo, http://localhost:4999 , https://google.com )fullPage
(booleano, opcional): Si se captura la página completa o solo la ventana gráfica. Predeterminado: falsowaitForSelector
(cadena, opcional): selector CSS que se debe esperar antes de tomar una captura de pantallawaitTime
(número, opcional): Tiempo de espera en milisegundos antes de tomar la captura de pantalla. Predeterminado: 1000
analizar_pantalla
Analice una captura de pantalla con visión de IA.
Parámetros: Ninguno (usa la captura de pantalla más reciente)
leer_archivo
Leer el contenido de un archivo entre números de línea especificados.
Parámetros:
path
(cadena): Ruta al archivostartLine
(número): Número de línea de inicio (indexado en 1)endLine
(número): Número de línea final (indexado en 1)
modificar_archivo
Modificar el contenido de un archivo entre números de línea especificados.
Parámetros:
path
(cadena): Ruta al archivostartLine
(número): Número de línea de inicio a reemplazar (indexado a 1)endLine
(número): Número de línea final a reemplazar (indexado a 1)content
(cadena): Nuevo contenido para reemplazar las líneas especificadas
generar_informe
Genere un informe de análisis de UI/UX completo.
Parámetros:
testUrl
(cadena): URL de la aplicación que se está probandoappName
(cadena, opcional): nombre de la aplicación que se está analizandodate
(cadena, opcional): Fecha del análisis (AAAA-MM-DD)observations
(objeto): Observaciones estructuradas como componentes, estado de datos, interacciones, etc.
Ejemplo de flujo de trabajo
- Tome una captura de pantalla de un sitio web:
- Analiza la captura de pantalla:
- Generar un informe basado en el análisis:
Requisitos
- Node.js 14+
- Dramaturgo para la automatización del navegador
- Clave API de Gemini para el análisis de visión con IA
Licencia
Instituto Tecnológico de Massachusetts (MIT)
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Tools
Un servidor de protocolo de contexto de modelo que proporciona capacidades de visión de IA para analizar capturas de pantalla de la interfaz de usuario y ofrece herramientas para el análisis de pantalla, operaciones de archivos y generación de informes de UI/UX.
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityA Model Context Protocol server that provides browser automation capabilities using Playwright. This server enables LLMs to interact with web pages, take screenshots, and execute JavaScript in a real browser environment.Last updated -1310,9113,915TypeScriptMIT License
- AsecurityAlicenseAqualityAn official MCP server implementation that allows AI assistants to capture website screenshots through the ScreenshotOne API, enabling visual context from web pages during conversations.Last updated -13621TypeScriptMIT License
- -securityFlicense-qualityA server that provides rich UI context and interaction capabilities to AI models, enabling deep understanding of user interfaces through visual analysis and precise interaction via Model Context Protocol.Last updated -24Python
- -securityAlicense-qualityA Model Context Protocol server enabling AI assistants to generate images through OpenAI's DALL-E API with full support for all available options and fine-grained control.Last updated -141JavaScriptMIT License