Servidor de reconocimiento de vídeo MCP

Un servidor MCP (Protocolo de contexto de modelo) que proporciona herramientas para el reconocimiento de imágenes, audio y vídeo mediante Gemini AI de Google.

Características

Reconocimiento de imágenes : analiza y describe imágenes con Google Gemini AI
Reconocimiento de audio : analiza y transcribe audio con Google Gemini AI
Reconocimiento de video : analiza y describe videos con Google Gemini AI

Prerrequisitos

Node.js 18 o superior
Clave API de Google Gemini

Instalación

Instalación manual

Clonar el repositorio:
git clone https://github.com/yourusername/mcp-video-recognition.git cd mcp-video-recognition
Instalar dependencias:
npm install
Construir el proyecto:
npm run build

Instalación en FLUJO

Haga clic en Agregar servidor
Copie y pegue la URL de Github en FLUJO
Haga clic en Analizar, Clonar, Instalar, Compilar y Guardar.

Instalación mediante archivos de configuración

Para integrar este servidor MCP con Cline u otros clientes MCP a través de archivos de configuración:

Abra la configuración de Cline:
- En VS Code, vaya a Archivo -> Preferencias -> Configuración
- Buscar "Configuración de Cline MCP"
- Haga clic en "Editar en settings.json".
Agregue la configuración del servidor al objeto mcpServers :
{ "mcpServers": { "video-recognition": { "command": "node", "args": [ "/path/to/mcp-video-recognition/dist/index.js" ], "disabled": false, "autoApprove": [] } } }
Reemplace /path/to/mcp-video-recognition/dist/index.js con la ruta real del archivo index.js en el directorio de su proyecto. Use barras diagonales (/) o barras invertidas dobles (\\) para la ruta en Windows.
Guarde el archivo de configuración. Cline debería conectarse automáticamente al servidor.

Configuración

El servidor se configura mediante variables de entorno:

GOOGLE_API_KEY (obligatorio): Su clave API de Google Gemini
TRANSPORT_TYPE : Tipo de transporte a utilizar ( stdio o sse , predeterminado stdio )
PORT : Número de puerto para el transporte SSE (predeterminado 3000)
LOG_LEVEL : Nivel de registro ( verbose , debug , info , warn , error , predeterminado info )

Uso

Iniciando el servidor

Con transporte stdio (predeterminado)

GOOGLE_API_KEY=your_api_key npm start

Con SSE Transport

GOOGLE_API_KEY=your_api_key TRANSPORT_TYPE=sse PORT=3000 npm start

Usando las herramientas

El servidor proporciona tres herramientas que pueden ser llamadas por los clientes MCP:

Reconocimiento de imágenes

{
  "name": "image_recognition",
  "arguments": {
    "filepath": "/path/to/image.jpg",
    "prompt": "Describe this image in detail",
    "modelname": "gemini-2.0-flash"
  }
}

Reconocimiento de audio

{
  "name": "audio_recognition",
  "arguments": {
    "filepath": "/path/to/audio.mp3",
    "prompt": "Transcribe this audio",
    "modelname": "gemini-2.0-flash"
  }
}

Reconocimiento de vídeo

{
  "name": "video_recognition",
  "arguments": {
    "filepath": "/path/to/video.mp4",
    "prompt": "Describe what happens in this video",
    "modelname": "gemini-2.0-flash"
  }
}

Parámetros de la herramienta

Todas las herramientas aceptan los siguientes parámetros:

filepath (obligatorio): Ruta al archivo multimedia a analizar
prompt (opcional): mensaje personalizado para el reconocimiento (predeterminado: "Describe este contenido")
modelname (opcional): modelo de Gemini que se utilizará para el reconocimiento (el valor predeterminado es "gemini-2.0-flash")

Desarrollo

Ejecutando en modo de desarrollo

GOOGLE_API_KEY=your_api_key npm run dev

Estructura del proyecto

src/index.ts : Punto de entrada
src/server.ts : implementación del servidor MCP
src/tools/ : Implementaciones de herramientas
src/services/ : Implementaciones de servicios (API de Gemini)
src/types/ : Definiciones de tipos
src/utils/ : Funciones de utilidad

Licencia

Instituto Tecnológico de Massachusetts (MIT)

Install Server

HTTP connection URL

security – no known vulnerabilities

license - permissive license

quality - confirmed to work

How are these scores calculated?

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Tools

Proporciona herramientas para el reconocimiento de imágenes, audio y vídeo utilizando la inteligencia artificial Gemini de Google a través del Protocolo de contexto de modelo.

Related MCP Servers

Image Toolkit MCP Server
Kira-Pgr
-
security
A
license
-
quality
A server that provides AI-powered image generation, modification, and processing capabilities through the Model Context Protocol, leveraging Google Gemini models and other image services.
Last updated -
11
Python
MIT License
Gemini MCP Image Generation Server
sanxfxteam
A
security
A
license
A
quality
A Model Context Protocol server that provides image generation capabilities using Google's Gemini 2 API, allowing users to generate multiple images with customizable parameters like prompts, aspect ratios, and person generation settings.
Last updated -
1
3
JavaScript
MIT License
MCP Gemini API Server
techkwon
A
security
F
license
A
quality
A server that provides access to Google Gemini AI capabilities including text generation, image analysis, YouTube video analysis, and web search functionality through the MCP protocol.
Last updated -
6
18
3
TypeScript
MCP Gemini CLI
kazuph
-
security
F
license
-
quality
A server that allows interaction with Google's Gemini AI through the Gemini CLI tool using the Model Context Protocol, providing a standardized interface for querying Gemini with various options and configurations.
Last updated -
JavaScript

View all related MCP servers

MCP Video Recognition Server