Generador de imágenes Gemini Servidor MCP

Genere imágenes de alta calidad a partir de indicaciones de texto utilizando el modelo Gemini de Google a través del protocolo MCP.

Descripción general

Este servidor MCP permite que cualquier asistente de IA genere imágenes utilizando el modelo de IA Gemini de Google. El servidor gestiona la ingeniería de señales, la conversión de texto a imagen, la generación de nombres de archivo y el almacenamiento local de imágenes, lo que facilita la creación y la gestión de imágenes generadas por IA a través de cualquier cliente MCP.

Características

Generación de texto a imagen con Gemini 2.0 Flash
Transformación de imagen a imagen basada en indicaciones de texto
Compatibilidad con imágenes basadas en archivos y codificadas en base64
Generación automática e inteligente de nombres de archivos según indicaciones
Traducción automática de indicaciones en idiomas distintos del inglés
Almacenamiento de imágenes local con ruta de salida configurable
Exclusión estricta de texto de las imágenes generadas
Salida de imágenes de alta resolución
Acceso directo tanto a los datos de la imagen como a la ruta del archivo

Herramientas MCP disponibles

El servidor proporciona las siguientes herramientas MCP para asistentes de IA:

1. `generate_image_from_text`

Crea una nueva imagen a partir de una descripción de solicitud de texto.

generate_image_from_text(prompt: str) -> Tuple[bytes, str]

Parámetros:

prompt : Descripción de texto de la imagen que desea generar.

Devoluciones:

Una tupla que contiene:
- Datos de imagen sin procesar (bytes)
- Ruta al archivo de imagen guardado (str)

Este formato de retorno dual permite que los asistentes de IA trabajen con los datos de la imagen directamente o hagan referencia a la ruta del archivo guardado.

Ejemplos:

Generar una imagen de una puesta de sol sobre las montañas.
Crea un cerdo volador fotorrealista en una ciudad de ciencia ficción.

Ejemplo de salida

Esta imagen se generó utilizando el mensaje:

"Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"

Cerdo volador sobre una ciudad de ciencia ficción

Un cerdo renderizado en 3D con alas y un sombrero de copa volando sobre una ciudad futurista de ciencia ficción llena de vegetación.

Problemas conocidos

Al utilizar este servidor MCP con Claude Desktop Host:

Problemas de rendimiento : El uso de transform_image_from_encoded puede tardar mucho más en procesarse en comparación con otros métodos. Esto se debe a la sobrecarga que supone transferir grandes datos de imagen codificados en base64 mediante el protocolo MCP.
Problemas de resolución de rutas : Puede haber problemas para resolver correctamente las rutas de las imágenes al usar Claude Desktop Host. Es posible que la aplicación host no interprete correctamente las rutas de los archivos devueltos, lo que dificulta el acceso a las imágenes generadas.

Para obtener la mejor experiencia, considere utilizar clientes MCP alternativos o el método transform_image_from_file cuando sea posible.

2. `transform_image_from_encoded`

Transforma una imagen existente basándose en una solicitud de texto utilizando datos de imagen codificados en base64.

transform_image_from_encoded(encoded_image: str, prompt: str) -> Tuple[bytes, str]

Parámetros:

encoded_image : Datos de imagen codificados en Base64 con encabezado de formato (deben tener el formato: "data/[format];base64,[data]")
prompt : Descripción de texto de cómo desea transformar la imagen.

Devoluciones:

Una tupla que contiene:
- Datos de imagen transformados sin procesar (bytes)
- Ruta al archivo de imagen transformada guardada (str)

Ejemplo:

"Añade nieve a este paisaje"
"Cambiar el fondo a una playa"

3. `transform_image_from_file`

Transforma un archivo de imagen existente basándose en una solicitud de texto.

transform_image_from_file(image_file_path: str, prompt: str) -> Tuple[bytes, str]

Parámetros:

image_file_path : Ruta al archivo de imagen que se va a transformar
prompt : Descripción de texto de cómo desea transformar la imagen.

Devoluciones:

Una tupla que contiene:
- Datos de imagen transformados sin procesar (bytes)
- Ruta al archivo de imagen transformada guardada (str)

Ejemplos:

"Agrega una llama junto a la persona en esta imagen"
"Haz que esta escena diurna parezca nocturna"

Ejemplo de transformación

Usando la imagen del cerdo volador creada arriba, aplicamos una transformación con el siguiente mensaje:

"Add a cute baby whale flying alongside the pig"

Antes: Cerdo volador sobre una ciudad de ciencia ficción

Después: Cerdo volador con ballena bebé

La imagen original del cerdo volador con una linda ballena bebé agregada volando a su lado.

Configuración

Prerrequisitos

Python 3.11+
Clave API de Google AI (Gemini)
Aplicación host MCP (Claude Desktop App, Cursor u otros clientes compatibles con MCP)

Obtener una clave API de Gemini

Visita la página de claves API de Google AI Studio
Inicia sesión con tu cuenta de Google
Haga clic en "Crear clave API"
Copie su nueva clave API para usarla en la configuración
Nota: La clave API proporciona una cuota de uso gratuito al mes. Puedes consultar tu uso en Google AI Studio.

Instalación

Clonar el repositorio:

git clone https://github.com/your-username/gemini-image-generator.git
cd gemini-image-generator

Cree un entorno virtual e instale dependencias:

# Using regular venv
python -m venv .venv
source .venv/bin/activate
pip install -e .

# Or using uv
uv venv
source .venv/bin/activate
uv pip install -e .

Copie el archivo de entorno de ejemplo y agregue su clave API:

cp .env.example .env

Edite el archivo .env para incluir su clave API de Google Gemini y la ruta de salida preferida:

GEMINI_API_KEY="your-gemini-api-key-here"
OUTPUT_IMAGE_PATH="/path/to/save/images"

Configurar Claude Desktop

Agregue lo siguiente a su claude_desktop_config.json :

macOS : ~/Library/Application Support/Claude/claude_desktop_config.json

{
    "mcpServers": {
        "gemini-image-generator": {
            "command": "uv",
            "args": [
                "--directory",
                "/absolute/path/to/gemini-image-generator",
                "run",
                "server.py"
            ],
            "env": {
                "GEMINI_API_KEY": "GEMINI_API_KEY",
                "OUTPUT_IMAGE_PATH": "OUTPUT_IMAGE_PATH"
            }
        }
    }
}

Uso

Una vez instalado y configurado, puedes pedirle a Claude que genere o transforme imágenes mediante indicaciones como:

Generando nuevas imágenes

Generar una imagen de una puesta de sol sobre las montañas.
"Crea una ilustración de un paisaje urbano futurista"
"Haz una imagen de un gato con gafas de sol"

Transformando imágenes existentes

"Transforma esta imagen añadiendo nieve a la escena"
Edita esta foto para que parezca que fue tomada de noche.
"Añade un dragón volando al fondo de esta imagen"

Las imágenes generadas/transformadas se guardarán en la ruta de salida configurada y se mostrarán en Claude. Con los tipos de retorno actualizados, los asistentes de IA también pueden trabajar directamente con los datos de imagen sin necesidad de acceder a los archivos guardados.

Pruebas

Puede probar la aplicación ejecutando el servidor de desarrollo FastMCP:

fastmcp dev server.py

Este comando inicia un servidor de desarrollo local y permite acceder al Inspector de MCP en http://localhost:5173/ . El Inspector de MCP proporciona una práctica interfaz web donde puede probar directamente la herramienta de generación de imágenes sin necesidad de usar Claude ni otro cliente de MCP. Puede introducir indicaciones de texto, ejecutar la herramienta y ver los resultados inmediatamente, lo cual resulta útil para el desarrollo y la depuración.

Licencia

Licencia MIT

Install Server

HTTP connection URL

security – no known vulnerabilities

license - permissive license

quality - confirmed to work

How are these scores calculated?

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Tools

Permite a los asistentes de IA generar y transformar imágenes de alta calidad a partir de indicaciones de texto utilizando el modelo Gemini de Google a través del protocolo MCP.

Related MCP Servers

Image Generation MCP Server
mikeyny
A
security
F
license
A
quality
Enables users to generate images from text prompts using Replicate's model, with configurable parameters and full MCP protocol compliance.
Last updated -
1
122
TypeScript
Together AI Image Server
zym9863
A
security
A
license
A
quality
A MCP server that enables Claude and other MCP-compatible assistants to generate images from text prompts using Together AI's image generation models.
Last updated -
1
4
TypeScript
MIT License
Gemini MCP Image Generation Server
sanxfxteam
A
security
A
license
A
quality
A Model Context Protocol server that provides image generation capabilities using Google's Gemini 2 API, allowing users to generate multiple images with customizable parameters like prompts, aspect ratios, and person generation settings.
Last updated -
1
3
JavaScript
MIT License
OpenAI Image Generation MCP Server
IncomeStreamSurfer
-
security
A
license
-
quality
Provides tools for generating and editing images using OpenAI's gpt-image-1 model via an MCP interface, enabling AI assistants to create and modify images based on text prompts.
Last updated -
17
Python
Apache 2.0

View all related MCP servers

Gemini Image Generator MCP Server