gemini-media-mcp

License

Servidor MCP unificado en Go para la generación de medios mediante IA a través de la API de Google Gemini y Vertex AI.

Características

Generación de imágenes -- texto a imagen con relaciones de aspecto y resoluciones configurables (1K/2K/4K)
Edición de imágenes -- modifica imágenes existentes con instrucciones en lenguaje natural
Composición con múltiples referencias -- combina hasta 3 imágenes de referencia con guía de estilo/contenido
Generación de vídeo -- texto a vídeo mediante Veo 3.1 en niveles Lite, Fast y Standard
Imagen a vídeo -- anima imágenes estáticas para convertirlas en clips de vídeo
Extensión de vídeo -- encadena clips para obtener contenido más largo (niveles Fast y Standard)
Texto a voz (TTS) -- genera audio hablado con voces e idiomas configurables
Generación de música -- música mediante IA con Lyria 3 (clips de 30s o canciones completas con voz, control de estructura)
Binario único -- sin dependencias en tiempo de ejecución, se ejecuta sobre transporte stdio
Abstracción de proveedor -- interfaces agnósticas al backend para operaciones de imagen, vídeo, audio y modelos
Backend dual -- compatible tanto con la API de Gemini (clave API) como con Vertex AI (credenciales de proyecto)

Inicio rápido

# Install
go install github.com/mordor-forge/gemini-media-mcp/cmd/gemini-media-mcp@latest

# Configure (Gemini API; either variable name works)
export GEMINI_API_KEY="your-api-key"
# export GOOGLE_API_KEY="your-api-key"

# Or configure (Vertex AI)
export GOOGLE_CLOUD_PROJECT="your-project-id"
export GOOGLE_CLOUD_LOCATION="us-central1"

# Run directly (stdio transport)
gemini-media-mcp

Luego, añádelo a tu cliente MCP; consulta Configuración del cliente MCP a continuación.

Configuración

Variable	Requerido	Predeterminado	Descripción
`GOOGLE_API_KEY`	Sí*	--	Clave API de Gemini. También se acepta `GEMINI_API_KEY`
`GOOGLE_CLOUD_PROJECT`	Sí*	--	ID del proyecto GCP para el backend de Vertex AI
`GOOGLE_CLOUD_LOCATION`	No	`us-central1`	Región de GCP para Vertex AI
`MEDIA_OUTPUT_DIR`	No	`~/generated_media`	Directorio para archivos de medios guardados

*Se debe configurar GOOGLE_API_KEY o GOOGLE_CLOUD_PROJECT. Si ambos están configurados, la clave API tiene prioridad (evita conflictos cuando GOOGLE_CLOUD_PROJECT está configurado en el shell para otras herramientas).

Si no estás seguro de qué backend está activo, ejecuta get_config desde tu cliente MCP para confirmar el backend seleccionado y el directorio de salida.

Herramientas disponibles

Herramienta	Descripción	Tipo
`generate_image`	Generar imagen a partir de una instrucción de texto	Síncrono
`edit_image`	Editar imagen existente con una instrucción de texto	Síncrono
`compose_images`	Composición de imágenes con múltiples referencias (hasta 3)	Síncrono
`generate_video`	Generar vídeo a partir de una instrucción de texto (devuelve ID de operación)	Asíncrono
`animate_image`	Animar imagen para convertirla en vídeo (primer fotograma)	Asíncrono
`extend_video`	Encadenar clips de vídeo para contenido más largo	Asíncrono
`video_status`	Comprobar el progreso de la generación de vídeo	Síncrono
`download_video`	Descargar el vídeo completado	Síncrono
`generate_audio`	Generar audio hablado a partir de texto (TTS)	Síncrono
`generate_music`	Generar música mediante IA a partir de una descripción de texto (Lyria)	Síncrono
`list_models`	Mostrar modelos disponibles con capacidades y precios	Síncrono
`get_config`	Mostrar el backend y la configuración actuales	Síncrono

Las herramientas asíncronas devuelven un ID de operación inmediatamente. Usa video_status para consultar el progreso y, a continuación, download_video para recuperar el archivo.

Niveles de modelo

Imagen

Nivel	Modelo	Ideal para	Coste
nb2 (predeterminado)	`gemini-3.1-flash-image

gemini-media-mcp

gemini-media-mcp

Características

Inicio rápido

Configuración

Herramientas disponibles

Niveles de modelo

Imagen

Resources

Tools

Latest Blog Posts

MCP directory API