Servidor de reconocimiento de vídeo MCP
Un servidor MCP (Protocolo de contexto de modelo) que proporciona herramientas para el reconocimiento de imágenes, audio y vídeo mediante Gemini AI de Google.
Características
- Reconocimiento de imágenes : analiza y describe imágenes con Google Gemini AI
- Reconocimiento de audio : analiza y transcribe audio con Google Gemini AI
- Reconocimiento de video : analiza y describe videos con Google Gemini AI
Prerrequisitos
- Node.js 18 o superior
- Clave API de Google Gemini
Instalación
Instalación manual
- Clonar el repositorio:
- Instalar dependencias:
- Construir el proyecto:
Instalación en FLUJO
- Haga clic en Agregar servidor
- Copie y pegue la URL de Github en FLUJO
- Haga clic en Analizar, Clonar, Instalar, Compilar y Guardar.
Instalación mediante archivos de configuración
Para integrar este servidor MCP con Cline u otros clientes MCP a través de archivos de configuración:
- Abra la configuración de Cline:
- En VS Code, vaya a Archivo -> Preferencias -> Configuración
- Buscar "Configuración de Cline MCP"
- Haga clic en "Editar en settings.json".
- Agregue la configuración del servidor al objeto
mcpServers
: - Reemplace
/path/to/mcp-video-recognition/dist/index.js
con la ruta real del archivoindex.js
en el directorio de su proyecto. Use barras diagonales (/) o barras invertidas dobles (\\) para la ruta en Windows. - Guarde el archivo de configuración. Cline debería conectarse automáticamente al servidor.
Configuración
El servidor se configura mediante variables de entorno:
GOOGLE_API_KEY
(obligatorio): Su clave API de Google GeminiTRANSPORT_TYPE
: Tipo de transporte a utilizar (stdio
osse
, predeterminadostdio
)PORT
: Número de puerto para el transporte SSE (predeterminado 3000)LOG_LEVEL
: Nivel de registro (verbose
,debug
,info
,warn
,error
, predeterminadoinfo
)
Uso
Iniciando el servidor
Con transporte stdio (predeterminado)
Con SSE Transport
Usando las herramientas
El servidor proporciona tres herramientas que pueden ser llamadas por los clientes MCP:
Reconocimiento de imágenes
Reconocimiento de audio
Reconocimiento de vídeo
Parámetros de la herramienta
Todas las herramientas aceptan los siguientes parámetros:
filepath
(obligatorio): Ruta al archivo multimedia a analizarprompt
(opcional): mensaje personalizado para el reconocimiento (predeterminado: "Describe este contenido")modelname
(opcional): modelo de Gemini que se utilizará para el reconocimiento (el valor predeterminado es "gemini-2.0-flash")
Desarrollo
Ejecutando en modo de desarrollo
Estructura del proyecto
src/index.ts
: Punto de entradasrc/server.ts
: implementación del servidor MCPsrc/tools/
: Implementaciones de herramientassrc/services/
: Implementaciones de servicios (API de Gemini)src/types/
: Definiciones de tipossrc/utils/
: Funciones de utilidad
Licencia
Instituto Tecnológico de Massachusetts (MIT)
You must be authenticated.
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Proporciona herramientas para el reconocimiento de imágenes, audio y vídeo utilizando la inteligencia artificial Gemini de Google a través del Protocolo de contexto de modelo.
Related MCP Servers
- -securityAlicense-qualityA server that provides AI-powered image generation, modification, and processing capabilities through the Model Context Protocol, leveraging Google Gemini models and other image services.Last updated -6PythonMIT License
- AsecurityAlicenseAqualityAllows AI assistants to generate and transform high-quality images from text prompts using Google's Gemini model via the MCP protocol.Last updated -35PythonMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that provides image generation capabilities using Google's Gemini 2 API, allowing users to generate multiple images with customizable parameters like prompts, aspect ratios, and person generation settings.Last updated -1JavaScriptMIT License
- -securityAlicense-qualityA server that enables Claude Desktop to generate images using Google's Gemini AI models through the Model Context Protocol (MCP).Last updated -1JavaScriptMIT License