Gemini Image Generator MCP Server

Integrations

  • Supports environment variable configuration through .env files for storing API keys and output path settings.

  • Enables text-to-image generation and image transformation using Google's Gemini AI model, supporting high-resolution image creation from text prompts and modification of existing images based on textual descriptions.

  • Includes specific configuration paths for macOS users to set up the MCP server with Claude Desktop.

Gemini Image Generator MCP-Server

Generieren Sie mithilfe des Gemini-Modells von Google über das MCP-Protokoll hochwertige Bilder aus Textaufforderungen.

Überblick

Dieser MCP-Server ermöglicht es jedem KI-Assistenten, Bilder mithilfe des Gemini-KI-Modells von Google zu generieren. Der Server übernimmt die Eingabeaufforderung, die Text-zu-Bild-Konvertierung, die Dateinamengenerierung und die lokale Bildspeicherung. So können KI-generierte Bilder ganz einfach über jeden MCP-Client erstellt und verwaltet werden.

Merkmale

  • Text-zu-Bild-Generierung mit Gemini 2.0 Flash
  • Bild-zu-Bild-Transformation basierend auf Textaufforderungen
  • Unterstützung sowohl für dateibasierte als auch für base64-kodierte Bilder
  • Automatische intelligente Dateinamengenerierung basierend auf Eingabeaufforderungen
  • Automatische Übersetzung nicht-englischer Eingabeaufforderungen
  • Lokaler Bildspeicher mit konfigurierbarem Ausgabepfad
  • Strikter Textausschluss aus generierten Bildern
  • Hochauflösende Bildausgabe
  • Direkter Zugriff auf Bilddaten und Dateipfad

Verfügbare MCP-Tools

Der Server stellt die folgenden MCP-Tools für KI-Assistenten bereit:

1. generate_image_from_text

Erstellt ein neues Bild aus einer Textaufforderungsbeschreibung.

generate_image_from_text(prompt: str) -> Tuple[bytes, str]

Parameter:

  • prompt : Textbeschreibung des Bildes, das Sie generieren möchten

Widerrufsfolgen:

  • Ein Tupel mit:
    • Rohbilddaten (Bytes)
    • Pfad zur gespeicherten Bilddatei (str)

Dieses duale Rückgabeformat ermöglicht es KI-Assistenten, entweder direkt mit den Bilddaten zu arbeiten oder auf den gespeicherten Dateipfad zu verweisen.

Beispiele:

  • "Erstellen Sie ein Bild eines Sonnenuntergangs über den Bergen"
  • "Erstellen Sie ein fotorealistisches fliegendes Schwein in einer Science-Fiction-Stadt"
Beispielausgabe

Dieses Bild wurde mit der Eingabeaufforderung generiert:

"Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"

Ein 3D-gerendertes Schwein mit Flügeln und Zylinder, das über einer futuristischen Science-Fiction-Stadt voller Grün fliegt

Bekannte Probleme

Bei Verwendung dieses MCP-Servers mit Claude Desktop Host:

  1. Leistungsprobleme : Die Verwendung von transform_image_from_encoded kann im Vergleich zu anderen Methoden deutlich länger dauern. Dies liegt am Overhead bei der Übertragung großer base64-codierter Bilddaten über das MCP-Protokoll.
  2. Probleme bei der Pfadauflösung : Bei der Verwendung von Claude Desktop Host kann es zu Problemen mit der korrekten Auflösung von Bildpfaden kommen. Die Hostanwendung interpretiert die zurückgegebenen Dateipfade möglicherweise nicht richtig, was den Zugriff auf die generierten Bilder erschwert.

Für ein optimales Erlebnis sollten Sie nach Möglichkeit alternative MCP-Clients oder die Methode transform_image_from_file verwenden.

2. transform_image_from_encoded

Transformiert ein vorhandenes Bild basierend auf einer Textaufforderung unter Verwendung von Base64-codierten Bilddaten.

transform_image_from_encoded(encoded_image: str, prompt: str) -> Tuple[bytes, str]

Parameter:

  • encoded_image : Base64-codierte Bilddaten mit Formatheader (müssen im Format „data:image/[format];base64,[data]“ vorliegen).
  • prompt : Textbeschreibung, wie Sie das Bild transformieren möchten

Widerrufsfolgen:

  • Ein Tupel mit:
    • Rohe transformierte Bilddaten (Bytes)
    • Pfad zur gespeicherten transformierten Bilddatei (str)

Beispiel:

  • „Fügen Sie dieser Landschaft Schnee hinzu“
  • „Ändern Sie den Hintergrund in einen Strand“

3. transform_image_from_file

Transformiert eine vorhandene Bilddatei basierend auf einer Textaufforderung.

transform_image_from_file(image_file_path: str, prompt: str) -> Tuple[bytes, str]

Parameter:

  • image_file_path : Pfad zur zu transformierenden Bilddatei
  • prompt : Textbeschreibung, wie Sie das Bild transformieren möchten

Widerrufsfolgen:

  • Ein Tupel mit:
    • Rohe transformierte Bilddaten (Bytes)
    • Pfad zur gespeicherten transformierten Bilddatei (str)

Beispiele:

  • „Fügen Sie neben der Person in diesem Bild ein Lama hinzu.“
  • „Lassen Sie diese Tagesszene wie eine Nachtszene aussehen“
Beispieltransformation

Mithilfe des oben erstellten Bildes des fliegenden Schweins haben wir eine Transformation mit der folgenden Eingabeaufforderung angewendet:

"Add a cute baby whale flying alongside the pig"

Vor:

Nach:

Das Originalbild eines fliegenden Schweins mit einem süßen Walbaby, das daneben fliegt

Aufstellen

Voraussetzungen

  • Python 3.11+
  • Google AI API-Schlüssel (Gemini)
  • MCP-Hostanwendung (Claude Desktop App, Cursor oder andere MCP-kompatible Clients)

Abrufen eines Gemini-API-Schlüssels

  1. Besuchen Sie die Seite mit den API-Schlüsseln von Google AI Studio
  2. Melden Sie sich mit Ihrem Google-Konto an
  3. Klicken Sie auf „API-Schlüssel erstellen“
  4. Kopieren Sie Ihren neuen API-Schlüssel zur Verwendung in der Konfiguration
  5. Hinweis: Der API-Schlüssel bietet ein bestimmtes Kontingent an kostenloser Nutzung pro Monat. Sie können Ihre Nutzung im Google AI Studio überprüfen.

Installation

Installation über Smithery

So installieren Sie Gemini Image Generator MCP für Claude Desktop automatisch über Smithery :

npx -y @smithery/cli install @qhdrl12/mcp-server-gemini-image-gen --client claude

Manuelle Installation

  1. Klonen Sie das Repository:
git clone https://github.com/your-username/gemini-image-generator.git cd gemini-image-generator
  1. Erstellen Sie eine virtuelle Umgebung und installieren Sie Abhängigkeiten:
# Using regular venv python -m venv .venv source .venv/bin/activate pip install -e . # Or using uv uv venv source .venv/bin/activate uv pip install -e .
  1. Kopieren Sie die Beispielumgebungsdatei und fügen Sie Ihren API-Schlüssel hinzu:
cp .env.example .env
  1. Bearbeiten Sie die .env Datei, um Ihren Google Gemini API-Schlüssel und den bevorzugten Ausgabepfad einzuschließen:
GEMINI_API_KEY="your-gemini-api-key-here" OUTPUT_IMAGE_PATH="/path/to/save/images"

Claude Desktop konfigurieren

Fügen Sie Ihrer claude_desktop_config.json Folgendes hinzu:

  • macOS : ~/Library/Application Support/Claude/claude_desktop_config.json
{ "mcpServers": { "gemini-image-generator": { "command": "uv", "args": [ "--directory", "/absolute/path/to/gemini-image-generator", "run", "server.py" ], "env": { "GEMINI_API_KEY": "GEMINI_API_KEY", "OUTPUT_IMAGE_PATH": "OUTPUT_IMAGE_PATH" } } } }

Verwendung

Nach der Installation und Konfiguration können Sie Claude bitten, Bilder zu generieren oder zu transformieren, indem Sie Eingabeaufforderungen wie die folgenden verwenden:

Neue Bilder generieren

  • "Erstellen Sie ein Bild eines Sonnenuntergangs über den Bergen"
  • "Erstellen Sie eine Illustration einer futuristischen Stadtlandschaft"
  • „Machen Sie ein Bild von einer Katze mit Sonnenbrille“

Vorhandene Bilder transformieren

  • „Transformieren Sie dieses Bild, indem Sie der Szene Schnee hinzufügen.“
  • „Bearbeiten Sie dieses Foto, damit es aussieht, als wäre es nachts aufgenommen worden.“
  • „Fügen Sie im Hintergrund dieses Bildes einen fliegenden Drachen hinzu.“

Die generierten/transformierten Bilder werden in Ihrem konfigurierten Ausgabepfad gespeichert und in Claude angezeigt. Mit den aktualisierten Rückgabetypen können KI-Assistenten auch direkt mit den Bilddaten arbeiten, ohne auf die gespeicherten Dateien zugreifen zu müssen.

Testen

Sie können die Anwendung testen, indem Sie den FastMCP-Entwicklungsserver ausführen:

fastmcp dev server.py

Dieser Befehl startet einen lokalen Entwicklungsserver und stellt den MCP Inspector unter http://localhost:5173/ bereit. Der MCP Inspector bietet eine praktische Weboberfläche, über die Sie das Bildgenerierungstool direkt testen können, ohne Claude oder einen anderen MCP-Client verwenden zu müssen. Sie können Texteingaben eingeben, das Tool ausführen und die Ergebnisse sofort sehen, was für Entwicklung und Debugging hilfreich ist.

Lizenz

MIT-Lizenz

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Ermöglicht KI-Assistenten, mithilfe des Gemini-Modells von Google über das MCP-Protokoll hochwertige Bilder aus Textaufforderungen zu generieren und zu transformieren.

  1. Überblick
    1. Merkmale
      1. Verfügbare MCP-Tools
        1. generate_image_from_text
        2. Bekannte Probleme
        3. transform_image_from_encoded
        4. transform_image_from_file
      2. Aufstellen
        1. Voraussetzungen
        2. Abrufen eines Gemini-API-Schlüssels
        3. Installation
        4. Installation über Smithery
        5. Manuelle Installation
        6. Claude Desktop konfigurieren
      3. Verwendung
        1. Neue Bilder generieren
        2. Vorhandene Bilder transformieren
      4. Testen
        1. Lizenz

          Related MCP Servers

          • A
            security
            F
            license
            A
            quality
            Enables users to generate images from text prompts using Replicate's model, with configurable parameters and full MCP protocol compliance.
            Last updated -
            1
            63
            TypeScript
          • A
            security
            A
            license
            A
            quality
            A MCP server that enables Claude and other MCP-compatible assistants to generate images from text prompts using Together AI's image generation models.
            Last updated -
            1
            2
            TypeScript
            MIT License
            • Apple
            • Linux
          • -
            security
            F
            license
            -
            quality
            A server that provides access to Google Gemini AI capabilities including text generation, image analysis, YouTube video analysis, and web search functionality through the MCP protocol.
            Last updated -
            2
            TypeScript
            • Apple

          View all related MCP servers

          ID: zrvlhnb942