Servidor de reconocimiento de vídeo MCP
Un servidor MCP (Protocolo de contexto de modelo) que proporciona herramientas para el reconocimiento de imágenes, audio y vídeo mediante Gemini AI de Google.
Características
Reconocimiento de imágenes : analiza y describe imágenes con Google Gemini AI
Reconocimiento de audio : analiza y transcribe audio con Google Gemini AI
Reconocimiento de video : analiza y describe videos con Google Gemini AI
Prerrequisitos
Node.js 18 o superior
Clave API de Google Gemini
Instalación
Instalación manual
Clonar el repositorio:
git clone https://github.com/yourusername/mcp-video-recognition.git cd mcp-video-recognitionInstalar dependencias:
npm installConstruir el proyecto:
npm run build
Instalación en FLUJO
Haga clic en Agregar servidor
Copie y pegue la URL de Github en FLUJO
Haga clic en Analizar, Clonar, Instalar, Compilar y Guardar.
Instalación mediante archivos de configuración
Para integrar este servidor MCP con Cline u otros clientes MCP a través de archivos de configuración:
Abra la configuración de Cline:
En VS Code, vaya a Archivo -> Preferencias -> Configuración
Buscar "Configuración de Cline MCP"
Haga clic en "Editar en settings.json".
Agregue la configuración del servidor al objeto
mcpServers:{ "mcpServers": { "video-recognition": { "command": "node", "args": [ "/path/to/mcp-video-recognition/dist/index.js" ], "disabled": false, "autoApprove": [] } } }Reemplace
/path/to/mcp-video-recognition/dist/index.jscon la ruta real del archivoindex.jsen el directorio de su proyecto. Use barras diagonales (/) o barras invertidas dobles (\\) para la ruta en Windows.Guarde el archivo de configuración. Cline debería conectarse automáticamente al servidor.
Configuración
El servidor se configura mediante variables de entorno:
GOOGLE_API_KEY(obligatorio): Su clave API de Google GeminiTRANSPORT_TYPE: Tipo de transporte a utilizar (stdioosse, predeterminadostdio)PORT: Número de puerto para el transporte SSE (predeterminado 3000)LOG_LEVEL: Nivel de registro (verbose,debug,info,warn,error, predeterminadoinfo)
Uso
Iniciando el servidor
Con transporte stdio (predeterminado)
Con SSE Transport
Usando las herramientas
El servidor proporciona tres herramientas que pueden ser llamadas por los clientes MCP:
Reconocimiento de imágenes
Reconocimiento de audio
Reconocimiento de vídeo
Parámetros de la herramienta
Todas las herramientas aceptan los siguientes parámetros:
filepath(obligatorio): Ruta al archivo multimedia a analizarprompt(opcional): mensaje personalizado para el reconocimiento (predeterminado: "Describe este contenido")modelname(opcional): modelo de Gemini que se utilizará para el reconocimiento (el valor predeterminado es "gemini-2.0-flash")
Desarrollo
Ejecutando en modo de desarrollo
Estructura del proyecto
src/index.ts: Punto de entradasrc/server.ts: implementación del servidor MCPsrc/tools/: Implementaciones de herramientassrc/services/: Implementaciones de servicios (API de Gemini)src/types/: Definiciones de tipossrc/utils/: Funciones de utilidad
Licencia
Instituto Tecnológico de Massachusetts (MIT)
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Proporciona herramientas para el reconocimiento de imágenes, audio y vídeo utilizando la inteligencia artificial Gemini de Google a través del Protocolo de contexto de modelo.
Related Resources
Related MCP Servers
- -security-license-qualityA server that provides AI-powered image generation, modification, and processing capabilities through the Model Context Protocol, leveraging Google Gemini models and other image services.Last updated -13MIT License
- Asecurity-licenseAqualityA server that provides access to Google Gemini AI capabilities including text generation, image analysis, YouTube video analysis, and web search functionality through the MCP protocol.Last updated -614
- -security-license-qualityA server that allows interaction with Google's Gemini AI through the Gemini CLI tool using the Model Context Protocol, providing a standardized interface for querying Gemini with various options and configurations.Last updated -
- Asecurity-licenseAqualityA Model Context Protocol server that connects to Google AI Studio/Gemini API, enabling content generation with support for various file types, conversation history, and system prompts.Last updated -13917