Gemini Image Generator MCP Server

by qhdrl12
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Supports environment variable configuration through .env files for storing API keys and output path settings.

  • Enables text-to-image generation and image transformation using Google's Gemini AI model, supporting high-resolution image creation from text prompts and modification of existing images based on textual descriptions.

  • Includes specific configuration paths for macOS users to set up the MCP server with Claude Desktop.

Generador de imágenes Gemini Servidor MCP

Genere imágenes de alta calidad a partir de indicaciones de texto utilizando el modelo Gemini de Google a través del protocolo MCP.

Descripción general

Este servidor MCP permite que cualquier asistente de IA genere imágenes utilizando el modelo de IA Gemini de Google. El servidor gestiona la ingeniería de señales, la conversión de texto a imagen, la generación de nombres de archivo y el almacenamiento local de imágenes, lo que facilita la creación y la gestión de imágenes generadas por IA a través de cualquier cliente MCP.

Características

  • Generación de texto a imagen con Gemini 2.0 Flash
  • Transformación de imagen a imagen basada en indicaciones de texto
  • Compatibilidad con imágenes basadas en archivos y codificadas en base64
  • Generación automática e inteligente de nombres de archivos según indicaciones
  • Traducción automática de indicaciones en idiomas distintos del inglés
  • Almacenamiento de imágenes local con ruta de salida configurable
  • Exclusión estricta de texto de las imágenes generadas
  • Salida de imágenes de alta resolución
  • Acceso directo tanto a los datos de la imagen como a la ruta del archivo

Herramientas MCP disponibles

El servidor proporciona las siguientes herramientas MCP para asistentes de IA:

1. generate_image_from_text

Crea una nueva imagen a partir de una descripción de solicitud de texto.

generate_image_from_text(prompt: str) -> Tuple[bytes, str]

Parámetros:

  • prompt : Descripción de texto de la imagen que desea generar.

Devoluciones:

  • Una tupla que contiene:
    • Datos de imagen sin procesar (bytes)
    • Ruta al archivo de imagen guardado (str)

Este formato de retorno dual permite que los asistentes de IA trabajen con los datos de la imagen directamente o hagan referencia a la ruta del archivo guardado.

Ejemplos:

  • Generar una imagen de una puesta de sol sobre las montañas.
  • Crea un cerdo volador fotorrealista en una ciudad de ciencia ficción.

Ejemplo de salida

Esta imagen se generó utilizando el mensaje:

"Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"

Un cerdo renderizado en 3D con alas y un sombrero de copa volando sobre una ciudad futurista de ciencia ficción llena de vegetación.

Problemas conocidos

Al utilizar este servidor MCP con Claude Desktop Host:

  1. Problemas de rendimiento : El uso de transform_image_from_encoded puede tardar mucho más en procesarse en comparación con otros métodos. Esto se debe a la sobrecarga que supone transferir grandes datos de imagen codificados en base64 mediante el protocolo MCP.
  2. Problemas de resolución de rutas : Puede haber problemas para resolver correctamente las rutas de las imágenes al usar Claude Desktop Host. Es posible que la aplicación host no interprete correctamente las rutas de los archivos devueltos, lo que dificulta el acceso a las imágenes generadas.

Para obtener la mejor experiencia, considere utilizar clientes MCP alternativos o el método transform_image_from_file cuando sea posible.

2. transform_image_from_encoded

Transforma una imagen existente basándose en una solicitud de texto utilizando datos de imagen codificados en base64.

transform_image_from_encoded(encoded_image: str, prompt: str) -> Tuple[bytes, str]

Parámetros:

  • encoded_image : Datos de imagen codificados en Base64 con encabezado de formato (deben tener el formato: "data:image/[format];base64,[data]")
  • prompt : Descripción de texto de cómo desea transformar la imagen.

Devoluciones:

  • Una tupla que contiene:
    • Datos de imagen transformados sin procesar (bytes)
    • Ruta al archivo de imagen transformada guardada (str)

Ejemplo:

  • "Añade nieve a este paisaje"
  • "Cambiar el fondo a una playa"

3. transform_image_from_file

Transforma un archivo de imagen existente basándose en una solicitud de texto.

transform_image_from_file(image_file_path: str, prompt: str) -> Tuple[bytes, str]

Parámetros:

  • image_file_path : Ruta al archivo de imagen que se va a transformar
  • prompt : Descripción de texto de cómo desea transformar la imagen.

Devoluciones:

  • Una tupla que contiene:
    • Datos de imagen transformados sin procesar (bytes)
    • Ruta al archivo de imagen transformada guardada (str)

Ejemplos:

  • "Agrega una llama junto a la persona en esta imagen"
  • "Haz que esta escena diurna parezca nocturna"

Ejemplo de transformación

Usando la imagen del cerdo volador creada arriba, aplicamos una transformación con el siguiente mensaje:

"Add a cute baby whale flying alongside the pig"

Antes:

Después:

La imagen original del cerdo volador con una linda ballena bebé agregada volando a su lado.

Configuración

Prerrequisitos

  • Python 3.11+
  • Clave API de Google AI (Gemini)
  • Aplicación host MCP (Claude Desktop App, Cursor u otros clientes compatibles con MCP)

Obtener una clave API de Gemini

  1. Visita la página de claves API de Google AI Studio
  2. Inicia sesión con tu cuenta de Google
  3. Haga clic en "Crear clave API"
  4. Copie su nueva clave API para usarla en la configuración
  5. Nota: La clave API proporciona una cuota de uso gratuito al mes. Puedes consultar tu uso en Google AI Studio.

Instalación

  1. Clonar el repositorio:
git clone https://github.com/your-username/gemini-image-generator.git cd gemini-image-generator
  1. Cree un entorno virtual e instale dependencias:
# Using regular venv python -m venv .venv source .venv/bin/activate pip install -e . # Or using uv uv venv source .venv/bin/activate uv pip install -e .
  1. Copie el archivo de entorno de ejemplo y agregue su clave API:
cp .env.example .env
  1. Edite el archivo .env para incluir su clave API de Google Gemini y la ruta de salida preferida:
GEMINI_API_KEY="your-gemini-api-key-here" OUTPUT_IMAGE_PATH="/path/to/save/images"

Configurar Claude Desktop

Agregue lo siguiente a su claude_desktop_config.json :

  • macOS : ~/Library/Application Support/Claude/claude_desktop_config.json
{ "mcpServers": { "gemini-image-generator": { "command": "uv", "args": [ "--directory", "/absolute/path/to/gemini-image-generator", "run", "server.py" ], "env": { "GEMINI_API_KEY": "GEMINI_API_KEY", "OUTPUT_IMAGE_PATH": "OUTPUT_IMAGE_PATH" } } } }

Uso

Una vez instalado y configurado, puedes pedirle a Claude que genere o transforme imágenes mediante indicaciones como:

Generando nuevas imágenes

  • Generar una imagen de una puesta de sol sobre las montañas.
  • "Crea una ilustración de un paisaje urbano futurista"
  • "Haz una imagen de un gato con gafas de sol"

Transformando imágenes existentes

  • "Transforma esta imagen añadiendo nieve a la escena"
  • Edita esta foto para que parezca que fue tomada de noche.
  • "Añade un dragón volando al fondo de esta imagen"

Las imágenes generadas/transformadas se guardarán en la ruta de salida configurada y se mostrarán en Claude. Con los tipos de retorno actualizados, los asistentes de IA también pueden trabajar directamente con los datos de imagen sin necesidad de acceder a los archivos guardados.

Pruebas

Puede probar la aplicación ejecutando el servidor de desarrollo FastMCP:

fastmcp dev server.py

Este comando inicia un servidor de desarrollo local y permite acceder al Inspector de MCP en http://localhost:5173/ . El Inspector de MCP proporciona una práctica interfaz web donde puede probar directamente la herramienta de generación de imágenes sin necesidad de usar Claude ni otro cliente de MCP. Puede introducir indicaciones de texto, ejecutar la herramienta y ver los resultados inmediatamente, lo cual resulta útil para el desarrollo y la depuración.

Licencia

Licencia MIT

-
security - not tested
F
license - not found
-
quality - not tested

Permite a los asistentes de IA generar y transformar imágenes de alta calidad a partir de indicaciones de texto utilizando el modelo Gemini de Google a través del protocolo MCP.

  1. Overview
    1. Features
      1. Available MCP Tools
        1. 1. generate_image_from_text
        2. Known Issues
        3. 2. transform_image_from_encoded
        4. 3. transform_image_from_file
      2. Setup
        1. Prerequisites
        2. Getting a Gemini API Key
        3. Installation
        4. Configure Claude Desktop
      3. Usage
        1. Generating New Images
        2. Transforming Existing Images
      4. Testing
        1. License
          ID: zrvlhnb942