Skip to main content
Glama

MCP Video Recognition Server

Servidor de reconocimiento de vídeo MCP

Un servidor MCP (Protocolo de contexto de modelo) que proporciona herramientas para el reconocimiento de imágenes, audio y vídeo mediante Gemini AI de Google.

Características

  • Reconocimiento de imágenes : analiza y describe imágenes con Google Gemini AI
  • Reconocimiento de audio : analiza y transcribe audio con Google Gemini AI
  • Reconocimiento de video : analiza y describe videos con Google Gemini AI

Prerrequisitos

  • Node.js 18 o superior
  • Clave API de Google Gemini

Instalación

Instalación manual

  1. Clonar el repositorio:
    git clone https://github.com/yourusername/mcp-video-recognition.git cd mcp-video-recognition
  2. Instalar dependencias:
    npm install
  3. Construir el proyecto:
    npm run build

Instalación en FLUJO

  1. Haga clic en Agregar servidor
  2. Copie y pegue la URL de Github en FLUJO
  3. Haga clic en Analizar, Clonar, Instalar, Compilar y Guardar.

Instalación mediante archivos de configuración

Para integrar este servidor MCP con Cline u otros clientes MCP a través de archivos de configuración:

  1. Abra la configuración de Cline:
    • En VS Code, vaya a Archivo -> Preferencias -> Configuración
    • Buscar "Configuración de Cline MCP"
    • Haga clic en "Editar en settings.json".
  2. Agregue la configuración del servidor al objeto mcpServers :
    { "mcpServers": { "video-recognition": { "command": "node", "args": [ "/path/to/mcp-video-recognition/dist/index.js" ], "disabled": false, "autoApprove": [] } } }
  3. Reemplace /path/to/mcp-video-recognition/dist/index.js con la ruta real del archivo index.js en el directorio de su proyecto. Use barras diagonales (/) o barras invertidas dobles (\\) para la ruta en Windows.
  4. Guarde el archivo de configuración. Cline debería conectarse automáticamente al servidor.

Configuración

El servidor se configura mediante variables de entorno:

  • GOOGLE_API_KEY (obligatorio): Su clave API de Google Gemini
  • TRANSPORT_TYPE : Tipo de transporte a utilizar ( stdio o sse , predeterminado stdio )
  • PORT : Número de puerto para el transporte SSE (predeterminado 3000)
  • LOG_LEVEL : Nivel de registro ( verbose , debug , info , warn , error , predeterminado info )

Uso

Iniciando el servidor

Con transporte stdio (predeterminado)
GOOGLE_API_KEY=your_api_key npm start
Con SSE Transport
GOOGLE_API_KEY=your_api_key TRANSPORT_TYPE=sse PORT=3000 npm start

Usando las herramientas

El servidor proporciona tres herramientas que pueden ser llamadas por los clientes MCP:

Reconocimiento de imágenes
{ "name": "image_recognition", "arguments": { "filepath": "/path/to/image.jpg", "prompt": "Describe this image in detail", "modelname": "gemini-2.0-flash" } }
Reconocimiento de audio
{ "name": "audio_recognition", "arguments": { "filepath": "/path/to/audio.mp3", "prompt": "Transcribe this audio", "modelname": "gemini-2.0-flash" } }
Reconocimiento de vídeo
{ "name": "video_recognition", "arguments": { "filepath": "/path/to/video.mp4", "prompt": "Describe what happens in this video", "modelname": "gemini-2.0-flash" } }

Parámetros de la herramienta

Todas las herramientas aceptan los siguientes parámetros:

  • filepath (obligatorio): Ruta al archivo multimedia a analizar
  • prompt (opcional): mensaje personalizado para el reconocimiento (predeterminado: "Describe este contenido")
  • modelname (opcional): modelo de Gemini que se utilizará para el reconocimiento (el valor predeterminado es "gemini-2.0-flash")

Desarrollo

Ejecutando en modo de desarrollo

GOOGLE_API_KEY=your_api_key npm run dev

Estructura del proyecto

  • src/index.ts : Punto de entrada
  • src/server.ts : implementación del servidor MCP
  • src/tools/ : Implementaciones de herramientas
  • src/services/ : Implementaciones de servicios (API de Gemini)
  • src/types/ : Definiciones de tipos
  • src/utils/ : Funciones de utilidad

Licencia

Instituto Tecnológico de Massachusetts (MIT)

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Proporciona herramientas para el reconocimiento de imágenes, audio y vídeo utilizando la inteligencia artificial Gemini de Google a través del Protocolo de contexto de modelo.

  1. Características
    1. Prerrequisitos
      1. Instalación
        1. Instalación manual
        2. Instalación en FLUJO
        3. Instalación mediante archivos de configuración
      2. Configuración
        1. Uso
          1. Iniciando el servidor
          2. Usando las herramientas
          3. Parámetros de la herramienta
        2. Desarrollo
          1. Ejecutando en modo de desarrollo
          2. Estructura del proyecto
        3. Licencia

          Related MCP Servers

          • -
            security
            A
            license
            -
            quality
            A server that provides AI-powered image generation, modification, and processing capabilities through the Model Context Protocol, leveraging Google Gemini models and other image services.
            Last updated -
            6
            Python
            MIT License
            • Linux
            • Apple
          • A
            security
            A
            license
            A
            quality
            Allows AI assistants to generate and transform high-quality images from text prompts using Google's Gemini model via the MCP protocol.
            Last updated -
            3
            5
            Python
            MIT License
            • Apple
          • A
            security
            A
            license
            A
            quality
            A Model Context Protocol server that provides image generation capabilities using Google's Gemini 2 API, allowing users to generate multiple images with customizable parameters like prompts, aspect ratios, and person generation settings.
            Last updated -
            1
            JavaScript
            MIT License
            • Apple
            • Linux

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/mario-andreschak/mcp_video_recognition'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server