Servidor de reconocimiento de vídeo MCP
Un servidor MCP (Protocolo de contexto de modelo) que proporciona herramientas para el reconocimiento de imágenes, audio y vídeo mediante Gemini AI de Google.
Características
- Reconocimiento de imágenes : analiza y describe imágenes con Google Gemini AI
- Reconocimiento de audio : analiza y transcribe audio con Google Gemini AI
- Reconocimiento de video : analiza y describe videos con Google Gemini AI
Prerrequisitos
- Node.js 18 o superior
- Clave API de Google Gemini
Instalación
Instalación manual
- Clonar el repositorio:
- Instalar dependencias:
- Construir el proyecto:
Instalación en FLUJO
- Haga clic en Agregar servidor
- Copie y pegue la URL de Github en FLUJO
- Haga clic en Analizar, Clonar, Instalar, Compilar y Guardar.
Instalación mediante archivos de configuración
Para integrar este servidor MCP con Cline u otros clientes MCP a través de archivos de configuración:
- Abra la configuración de Cline:
- En VS Code, vaya a Archivo -> Preferencias -> Configuración
- Buscar "Configuración de Cline MCP"
- Haga clic en "Editar en settings.json".
- Agregue la configuración del servidor al objeto
mcpServers
: - Reemplace
/path/to/mcp-video-recognition/dist/index.js
con la ruta real del archivoindex.js
en el directorio de su proyecto. Use barras diagonales (/) o barras invertidas dobles (\\) para la ruta en Windows. - Guarde el archivo de configuración. Cline debería conectarse automáticamente al servidor.
Configuración
El servidor se configura mediante variables de entorno:
GOOGLE_API_KEY
(obligatorio): Su clave API de Google GeminiTRANSPORT_TYPE
: Tipo de transporte a utilizar (stdio
osse
, predeterminadostdio
)PORT
: Número de puerto para el transporte SSE (predeterminado 3000)LOG_LEVEL
: Nivel de registro (verbose
,debug
,info
,warn
,error
, predeterminadoinfo
)
Uso
Iniciando el servidor
Con transporte stdio (predeterminado)
Con SSE Transport
Usando las herramientas
El servidor proporciona tres herramientas que pueden ser llamadas por los clientes MCP:
Reconocimiento de imágenes
Reconocimiento de audio
Reconocimiento de vídeo
Parámetros de la herramienta
Todas las herramientas aceptan los siguientes parámetros:
filepath
(obligatorio): Ruta al archivo multimedia a analizarprompt
(opcional): mensaje personalizado para el reconocimiento (predeterminado: "Describe este contenido")modelname
(opcional): modelo de Gemini que se utilizará para el reconocimiento (el valor predeterminado es "gemini-2.0-flash")
Desarrollo
Ejecutando en modo de desarrollo
Estructura del proyecto
src/index.ts
: Punto de entradasrc/server.ts
: implementación del servidor MCPsrc/tools/
: Implementaciones de herramientassrc/services/
: Implementaciones de servicios (API de Gemini)src/types/
: Definiciones de tipossrc/utils/
: Funciones de utilidad
Licencia
Instituto Tecnológico de Massachusetts (MIT)
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Proporciona herramientas para el reconocimiento de imágenes, audio y vídeo utilizando la inteligencia artificial Gemini de Google a través del Protocolo de contexto de modelo.
Related MCP Servers
- -securityAlicense-qualityA server that provides AI-powered image generation, modification, and processing capabilities through the Model Context Protocol, leveraging Google Gemini models and other image services.Last updated -11PythonMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that provides image generation capabilities using Google's Gemini 2 API, allowing users to generate multiple images with customizable parameters like prompts, aspect ratios, and person generation settings.Last updated -13JavaScriptMIT License
- AsecurityFlicenseAqualityA server that provides access to Google Gemini AI capabilities including text generation, image analysis, YouTube video analysis, and web search functionality through the MCP protocol.Last updated -6183TypeScript
- -securityFlicense-qualityA server that allows interaction with Google's Gemini AI through the Gemini CLI tool using the Model Context Protocol, providing a standardized interface for querying Gemini with various options and configurations.Last updated -JavaScript