Skip to main content
Glama

Servidor de reconocimiento de vídeo MCP

Un servidor MCP (Protocolo de contexto de modelo) que proporciona herramientas para el reconocimiento de imágenes, audio y vídeo mediante Gemini AI de Google.

Características

  • Reconocimiento de imágenes : analiza y describe imágenes con Google Gemini AI

  • Reconocimiento de audio : analiza y transcribe audio con Google Gemini AI

  • Reconocimiento de video : analiza y describe videos con Google Gemini AI

Related MCP server: MCP Gemini API Server

Prerrequisitos

  • Node.js 18 o superior

  • Clave API de Google Gemini

Instalación

Instalación manual

  1. Clonar el repositorio:

    git clone https://github.com/yourusername/mcp-video-recognition.git cd mcp-video-recognition
  2. Instalar dependencias:

    npm install
  3. Construir el proyecto:

    npm run build

Instalación en FLUJO

  1. Haga clic en Agregar servidor

  2. Copie y pegue la URL de Github en FLUJO

  3. Haga clic en Analizar, Clonar, Instalar, Compilar y Guardar.

Instalación mediante archivos de configuración

Para integrar este servidor MCP con Cline u otros clientes MCP a través de archivos de configuración:

  1. Abra la configuración de Cline:

    • En VS Code, vaya a Archivo -> Preferencias -> Configuración

    • Buscar "Configuración de Cline MCP"

    • Haga clic en "Editar en settings.json".

  2. Agregue la configuración del servidor al objeto mcpServers :

    { "mcpServers": { "video-recognition": { "command": "node", "args": [ "/path/to/mcp-video-recognition/dist/index.js" ], "disabled": false, "autoApprove": [] } } }
  3. Reemplace /path/to/mcp-video-recognition/dist/index.js con la ruta real del archivo index.js en el directorio de su proyecto. Use barras diagonales (/) o barras invertidas dobles (\\) para la ruta en Windows.

  4. Guarde el archivo de configuración. Cline debería conectarse automáticamente al servidor.

Configuración

El servidor se configura mediante variables de entorno:

  • GOOGLE_API_KEY (obligatorio): Su clave API de Google Gemini

  • TRANSPORT_TYPE : Tipo de transporte a utilizar ( stdio o sse , predeterminado stdio )

  • PORT : Número de puerto para el transporte SSE (predeterminado 3000)

  • LOG_LEVEL : Nivel de registro ( verbose , debug , info , warn , error , predeterminado info )

Uso

Iniciando el servidor

Con transporte stdio (predeterminado)

GOOGLE_API_KEY=your_api_key npm start

Con SSE Transport

GOOGLE_API_KEY=your_api_key TRANSPORT_TYPE=sse PORT=3000 npm start

Usando las herramientas

El servidor proporciona tres herramientas que pueden ser llamadas por los clientes MCP:

Reconocimiento de imágenes

{ "name": "image_recognition", "arguments": { "filepath": "/path/to/image.jpg", "prompt": "Describe this image in detail", "modelname": "gemini-2.0-flash" } }

Reconocimiento de audio

{ "name": "audio_recognition", "arguments": { "filepath": "/path/to/audio.mp3", "prompt": "Transcribe this audio", "modelname": "gemini-2.0-flash" } }

Reconocimiento de vídeo

{ "name": "video_recognition", "arguments": { "filepath": "/path/to/video.mp4", "prompt": "Describe what happens in this video", "modelname": "gemini-2.0-flash" } }

Parámetros de la herramienta

Todas las herramientas aceptan los siguientes parámetros:

  • filepath (obligatorio): Ruta al archivo multimedia a analizar

  • prompt (opcional): mensaje personalizado para el reconocimiento (predeterminado: "Describe este contenido")

  • modelname (opcional): modelo de Gemini que se utilizará para el reconocimiento (el valor predeterminado es "gemini-2.0-flash")

Desarrollo

Ejecutando en modo de desarrollo

GOOGLE_API_KEY=your_api_key npm run dev

Estructura del proyecto

  • src/index.ts : Punto de entrada

  • src/server.ts : implementación del servidor MCP

  • src/tools/ : Implementaciones de herramientas

  • src/services/ : Implementaciones de servicios (API de Gemini)

  • src/types/ : Definiciones de tipos

  • src/utils/ : Funciones de utilidad

Licencia

Instituto Tecnológico de Massachusetts (MIT)

One-click Deploy
A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/mario-andreschak/mcp_video_recognition'

If you have feedback or need assistance with the MCP directory API, please join our Discord server