Servidor de reconocimiento de vídeo MCP
Un servidor MCP (Protocolo de contexto de modelo) que proporciona herramientas para el reconocimiento de imágenes, audio y vídeo mediante Gemini AI de Google.
Características
- Reconocimiento de imágenes : analiza y describe imágenes con Google Gemini AI
- Reconocimiento de audio : analiza y transcribe audio con Google Gemini AI
- Reconocimiento de video : analiza y describe videos con Google Gemini AI
Prerrequisitos
- Node.js 18 o superior
- Clave API de Google Gemini
Instalación
Instalación manual
- Clonar el repositorio:Copy
- Instalar dependencias:Copy
- Construir el proyecto:Copy
Instalación en FLUJO
- Haga clic en Agregar servidor
- Copie y pegue la URL de Github en FLUJO
- Haga clic en Analizar, Clonar, Instalar, Compilar y Guardar.
Instalación mediante archivos de configuración
Para integrar este servidor MCP con Cline u otros clientes MCP a través de archivos de configuración:
- Abra la configuración de Cline:
- En VS Code, vaya a Archivo -> Preferencias -> Configuración
- Buscar "Configuración de Cline MCP"
- Haga clic en "Editar en settings.json".
- Agregue la configuración del servidor al objeto
mcpServers
:Copy - Reemplace
/path/to/mcp-video-recognition/dist/index.js
con la ruta real del archivoindex.js
en el directorio de su proyecto. Use barras diagonales (/) o barras invertidas dobles (\\) para la ruta en Windows. - Guarde el archivo de configuración. Cline debería conectarse automáticamente al servidor.
Configuración
El servidor se configura mediante variables de entorno:
GOOGLE_API_KEY
(obligatorio): Su clave API de Google GeminiTRANSPORT_TYPE
: Tipo de transporte a utilizar (stdio
osse
, predeterminadostdio
)PORT
: Número de puerto para el transporte SSE (predeterminado 3000)LOG_LEVEL
: Nivel de registro (verbose
,debug
,info
,warn
,error
, predeterminadoinfo
)
Uso
Iniciando el servidor
Con transporte stdio (predeterminado)
Copy
Con SSE Transport
Copy
Usando las herramientas
El servidor proporciona tres herramientas que pueden ser llamadas por los clientes MCP:
Reconocimiento de imágenes
Copy
Reconocimiento de audio
Copy
Reconocimiento de vídeo
Copy
Parámetros de la herramienta
Todas las herramientas aceptan los siguientes parámetros:
filepath
(obligatorio): Ruta al archivo multimedia a analizarprompt
(opcional): mensaje personalizado para el reconocimiento (predeterminado: "Describe este contenido")modelname
(opcional): modelo de Gemini que se utilizará para el reconocimiento (el valor predeterminado es "gemini-2.0-flash")
Desarrollo
Ejecutando en modo de desarrollo
Copy
Estructura del proyecto
src/index.ts
: Punto de entradasrc/server.ts
: implementación del servidor MCPsrc/tools/
: Implementaciones de herramientassrc/services/
: Implementaciones de servicios (API de Gemini)src/types/
: Definiciones de tipossrc/utils/
: Funciones de utilidad
Licencia
Instituto Tecnológico de Massachusetts (MIT)
This server cannot be installed
Proporciona herramientas para el reconocimiento de imágenes, audio y vídeo utilizando la inteligencia artificial Gemini de Google a través del Protocolo de contexto de modelo.