Servidor de reconocimiento de vídeo MCP
Un servidor MCP (Protocolo de contexto de modelo) que proporciona herramientas para el reconocimiento de imágenes, audio y vídeo mediante Gemini AI de Google.
Características
Reconocimiento de imágenes : analiza y describe imágenes con Google Gemini AI
Reconocimiento de audio : analiza y transcribe audio con Google Gemini AI
Reconocimiento de video : analiza y describe videos con Google Gemini AI
Related MCP server: MCP Gemini API Server
Prerrequisitos
Node.js 18 o superior
Clave API de Google Gemini
Instalación
Instalación manual
Clonar el repositorio:
git clone https://github.com/yourusername/mcp-video-recognition.git cd mcp-video-recognitionInstalar dependencias:
npm installConstruir el proyecto:
npm run build
Instalación en FLUJO
Haga clic en Agregar servidor
Copie y pegue la URL de Github en FLUJO
Haga clic en Analizar, Clonar, Instalar, Compilar y Guardar.
Instalación mediante archivos de configuración
Para integrar este servidor MCP con Cline u otros clientes MCP a través de archivos de configuración:
Abra la configuración de Cline:
En VS Code, vaya a Archivo -> Preferencias -> Configuración
Buscar "Configuración de Cline MCP"
Haga clic en "Editar en settings.json".
Agregue la configuración del servidor al objeto
mcpServers:{ "mcpServers": { "video-recognition": { "command": "node", "args": [ "/path/to/mcp-video-recognition/dist/index.js" ], "disabled": false, "autoApprove": [] } } }Reemplace
/path/to/mcp-video-recognition/dist/index.jscon la ruta real del archivoindex.jsen el directorio de su proyecto. Use barras diagonales (/) o barras invertidas dobles (\\) para la ruta en Windows.Guarde el archivo de configuración. Cline debería conectarse automáticamente al servidor.
Configuración
El servidor se configura mediante variables de entorno:
GOOGLE_API_KEY(obligatorio): Su clave API de Google GeminiTRANSPORT_TYPE: Tipo de transporte a utilizar (stdioosse, predeterminadostdio)PORT: Número de puerto para el transporte SSE (predeterminado 3000)LOG_LEVEL: Nivel de registro (verbose,debug,info,warn,error, predeterminadoinfo)
Uso
Iniciando el servidor
Con transporte stdio (predeterminado)
GOOGLE_API_KEY=your_api_key npm startCon SSE Transport
GOOGLE_API_KEY=your_api_key TRANSPORT_TYPE=sse PORT=3000 npm startUsando las herramientas
El servidor proporciona tres herramientas que pueden ser llamadas por los clientes MCP:
Reconocimiento de imágenes
{
"name": "image_recognition",
"arguments": {
"filepath": "/path/to/image.jpg",
"prompt": "Describe this image in detail",
"modelname": "gemini-2.0-flash"
}
}Reconocimiento de audio
{
"name": "audio_recognition",
"arguments": {
"filepath": "/path/to/audio.mp3",
"prompt": "Transcribe this audio",
"modelname": "gemini-2.0-flash"
}
}Reconocimiento de vídeo
{
"name": "video_recognition",
"arguments": {
"filepath": "/path/to/video.mp4",
"prompt": "Describe what happens in this video",
"modelname": "gemini-2.0-flash"
}
}Parámetros de la herramienta
Todas las herramientas aceptan los siguientes parámetros:
filepath(obligatorio): Ruta al archivo multimedia a analizarprompt(opcional): mensaje personalizado para el reconocimiento (predeterminado: "Describe este contenido")modelname(opcional): modelo de Gemini que se utilizará para el reconocimiento (el valor predeterminado es "gemini-2.0-flash")
Desarrollo
Ejecutando en modo de desarrollo
GOOGLE_API_KEY=your_api_key npm run devEstructura del proyecto
src/index.ts: Punto de entradasrc/server.ts: implementación del servidor MCPsrc/tools/: Implementaciones de herramientassrc/services/: Implementaciones de servicios (API de Gemini)src/types/: Definiciones de tipossrc/utils/: Funciones de utilidad
Licencia
Instituto Tecnológico de Massachusetts (MIT)