MCP Video Recognition Server

by mario-andreschak
Verified

Servidor de reconocimiento de vídeo MCP

Un servidor MCP (Protocolo de contexto de modelo) que proporciona herramientas para el reconocimiento de imágenes, audio y vídeo mediante Gemini AI de Google.

Características

  • Reconocimiento de imágenes : analiza y describe imágenes con Google Gemini AI
  • Reconocimiento de audio : analiza y transcribe audio con Google Gemini AI
  • Reconocimiento de video : analiza y describe videos con Google Gemini AI

Prerrequisitos

  • Node.js 18 o superior
  • Clave API de Google Gemini

Instalación

Instalación manual

  1. Clonar el repositorio:
    git clone https://github.com/yourusername/mcp-video-recognition.git cd mcp-video-recognition
  2. Instalar dependencias:
    npm install
  3. Construir el proyecto:
    npm run build

Instalación en FLUJO

  1. Haga clic en Agregar servidor
  2. Copie y pegue la URL de Github en FLUJO
  3. Haga clic en Analizar, Clonar, Instalar, Compilar y Guardar.

Instalación mediante archivos de configuración

Para integrar este servidor MCP con Cline u otros clientes MCP a través de archivos de configuración:

  1. Abra la configuración de Cline:
    • En VS Code, vaya a Archivo -> Preferencias -> Configuración
    • Buscar "Configuración de Cline MCP"
    • Haga clic en "Editar en settings.json".
  2. Agregue la configuración del servidor al objeto mcpServers :
    { "mcpServers": { "video-recognition": { "command": "node", "args": [ "/path/to/mcp-video-recognition/dist/index.js" ], "disabled": false, "autoApprove": [] } } }
  3. Reemplace /path/to/mcp-video-recognition/dist/index.js con la ruta real del archivo index.js en el directorio de su proyecto. Use barras diagonales (/) o barras invertidas dobles (\\) para la ruta en Windows.
  4. Guarde el archivo de configuración. Cline debería conectarse automáticamente al servidor.

Configuración

El servidor se configura mediante variables de entorno:

  • GOOGLE_API_KEY (obligatorio): Su clave API de Google Gemini
  • TRANSPORT_TYPE : Tipo de transporte a utilizar ( stdio o sse , predeterminado stdio )
  • PORT : Número de puerto para el transporte SSE (predeterminado 3000)
  • LOG_LEVEL : Nivel de registro ( verbose , debug , info , warn , error , predeterminado info )

Uso

Iniciando el servidor

Con transporte stdio (predeterminado)

GOOGLE_API_KEY=your_api_key npm start

Con SSE Transport

GOOGLE_API_KEY=your_api_key TRANSPORT_TYPE=sse PORT=3000 npm start

Usando las herramientas

El servidor proporciona tres herramientas que pueden ser llamadas por los clientes MCP:

Reconocimiento de imágenes

{ "name": "image_recognition", "arguments": { "filepath": "/path/to/image.jpg", "prompt": "Describe this image in detail", "modelname": "gemini-2.0-flash" } }

Reconocimiento de audio

{ "name": "audio_recognition", "arguments": { "filepath": "/path/to/audio.mp3", "prompt": "Transcribe this audio", "modelname": "gemini-2.0-flash" } }

Reconocimiento de vídeo

{ "name": "video_recognition", "arguments": { "filepath": "/path/to/video.mp4", "prompt": "Describe what happens in this video", "modelname": "gemini-2.0-flash" } }

Parámetros de la herramienta

Todas las herramientas aceptan los siguientes parámetros:

  • filepath (obligatorio): Ruta al archivo multimedia a analizar
  • prompt (opcional): mensaje personalizado para el reconocimiento (predeterminado: "Describe este contenido")
  • modelname (opcional): modelo de Gemini que se utilizará para el reconocimiento (el valor predeterminado es "gemini-2.0-flash")

Desarrollo

Ejecutando en modo de desarrollo

GOOGLE_API_KEY=your_api_key npm run dev

Estructura del proyecto

  • src/index.ts : Punto de entrada
  • src/server.ts : implementación del servidor MCP
  • src/tools/ : Implementaciones de herramientas
  • src/services/ : Implementaciones de servicios (API de Gemini)
  • src/types/ : Definiciones de tipos
  • src/utils/ : Funciones de utilidad

Licencia

Instituto Tecnológico de Massachusetts (MIT)

-
security - not tested
-
license - not tested
-
quality - not tested

Proporciona herramientas para el reconocimiento de imágenes, audio y vídeo utilizando la inteligencia artificial Gemini de Google a través del Protocolo de contexto de modelo.

  1. Features
    1. Prerequisites
      1. Installation
        1. Manual Installation
        2. Installing in FLUJO
        3. Installing via Configuration Files
      2. Configuration
        1. Usage
          1. Starting the Server
          2. Using the Tools
          3. Tool Parameters
        2. Development
          1. Running in Development Mode
          2. Project Structure
        3. License
          ID: w7u8m7mdmb