gemini-media-mcp
gemini-media-mcp
Servidor MCP unificado en Go para la generación de medios mediante IA a través de la API de Google Gemini y Vertex AI.
Características
Generación de imágenes -- texto a imagen con relaciones de aspecto y resoluciones configurables (1K/2K/4K)
Edición de imágenes -- modifica imágenes existentes con instrucciones en lenguaje natural
Composición con múltiples referencias -- combina hasta 3 imágenes de referencia con guía de estilo/contenido
Generación de vídeo -- texto a vídeo mediante Veo 3.1 en niveles Lite, Fast y Standard
Imagen a vídeo -- anima imágenes estáticas para convertirlas en clips de vídeo
Extensión de vídeo -- encadena clips para obtener contenido más largo (niveles Fast y Standard)
Texto a voz (TTS) -- genera audio hablado con voces e idiomas configurables
Generación de música -- música mediante IA con Lyria 3 (clips de 30s o canciones completas con voz, control de estructura)
Binario único -- sin dependencias en tiempo de ejecución, se ejecuta sobre transporte stdio
Abstracción de proveedor -- interfaces agnósticas al backend para operaciones de imagen, vídeo, audio y modelos
Backend dual -- compatible tanto con la API de Gemini (clave API) como con Vertex AI (credenciales de proyecto)
Inicio rápido
# Install
go install github.com/mordor-forge/gemini-media-mcp/cmd/gemini-media-mcp@latest
# Configure (Gemini API; either variable name works)
export GEMINI_API_KEY="your-api-key"
# export GOOGLE_API_KEY="your-api-key"
# Or configure (Vertex AI)
export GOOGLE_CLOUD_PROJECT="your-project-id"
export GOOGLE_CLOUD_LOCATION="us-central1"
# Run directly (stdio transport)
gemini-media-mcpLuego, añádelo a tu cliente MCP; consulta Configuración del cliente MCP a continuación.
Configuración
Variable | Requerido | Predeterminado | Descripción |
| Sí* | -- | Clave API de Gemini. También se acepta |
| Sí* | -- | ID del proyecto GCP para el backend de Vertex AI |
| No |
| Región de GCP para Vertex AI |
| No |
| Directorio para archivos de medios guardados |
*Se debe configurar GOOGLE_API_KEY o GOOGLE_CLOUD_PROJECT. Si ambos están configurados, la clave API tiene prioridad (evita conflictos cuando GOOGLE_CLOUD_PROJECT está configurado en el shell para otras herramientas).
Si no estás seguro de qué backend está activo, ejecuta get_config desde tu cliente MCP para confirmar el backend seleccionado y el directorio de salida.
Herramientas disponibles
Herramienta | Descripción | Tipo |
| Generar imagen a partir de una instrucción de texto | Síncrono |
| Editar imagen existente con una instrucción de texto | Síncrono |
| Composición de imágenes con múltiples referencias (hasta 3) | Síncrono |
| Generar vídeo a partir de una instrucción de texto (devuelve ID de operación) | Asíncrono |
| Animar imagen para convertirla en vídeo (primer fotograma) | Asíncrono |
| Encadenar clips de vídeo para contenido más largo | Asíncrono |
| Comprobar el progreso de la generación de vídeo | Síncrono |
| Descargar el vídeo completado | Síncrono |
| Generar audio hablado a partir de texto (TTS) | Síncrono |
| Generar música mediante IA a partir de una descripción de texto (Lyria) | Síncrono |
| Mostrar modelos disponibles con capacidades y precios | Síncrono |
| Mostrar el backend y la configuración actuales | Síncrono |
Las herramientas asíncronas devuelven un ID de operación inmediatamente. Usa video_status para consultar el progreso y, a continuación, download_video para recuperar el archivo.
Niveles de modelo
Imagen
Nivel | Modelo | Ideal para | Coste |
nb2 (predeterminado) | `gemini-3.1-flash-image |
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/mordor-forge/gemini-media-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server