Gemini Image Generator MCP Server

by qhdrl12
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Supports environment variable configuration through .env files for storing API keys and output path settings.

  • Enables text-to-image generation and image transformation using Google's Gemini AI model, supporting high-resolution image creation from text prompts and modification of existing images based on textual descriptions.

  • Includes specific configuration paths for macOS users to set up the MCP server with Claude Desktop.

Gemini 画像ジェネレーター MCP サーバー

MCP プロトコルを介して Google の Gemini モデルを使用して、テキスト プロンプトから高品質の画像を生成します。

概要

このMCPサーバーは、あらゆるAIアシスタントがGoogleのGemini AIモデルを使用して画像を生成できるようにします。このサーバーはプロンプトエンジニアリング、テキストから画像への変換、ファイル名の生成、ローカル画像ストレージを処理するため、あらゆるMCPクライアントからAI生成画像を簡単に作成・管理できます。

特徴

  • Gemini 2.0 Flashを使用したテキストから画像への生成
  • テキストプロンプトに基づく画像間の変換
  • ファイルベースとbase64エンコードされた画像の両方をサポート
  • プロンプトに基づいて自動的にインテリジェントなファイル名を生成する
  • 英語以外のプロンプトの自動翻訳
  • 設定可能な出力パスを備えたローカル画像ストレージ
  • 生成された画像からテキストを厳密に除外する
  • 高解像度画像出力
  • 画像データとファイルパスの両方に直接アクセス

利用可能なMCPツール

サーバーは、AI アシスタント用に次の MCP ツールを提供します。

1. generate_image_from_text

テキストプロンプトの説明から新しい画像を作成します。

generate_image_from_text(prompt: str) -> Tuple[bytes, str]

パラメータ:

  • prompt : 生成したい画像のテキスト説明

戻り値:

  • 次の内容を含むタプル:
    • 生画像データ(バイト)
    • 保存された画像ファイルへのパス (str)

このデュアルリターン形式により、AI アシスタントは画像データを直接操作したり、保存されたファイルパスを参照したりすることができます。

例:

  • 「山に沈む夕日の画像を生成する」
  • 「SF都市でフォトリアリスティックな空飛ぶ豚を作ろう」

出力例

この画像はプロンプトを使用して生成されました:

"Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"

翼とシルクハットをつけた3Dレンダリングされた豚が、緑豊かな未来のSF都市の上を飛んでいます。

既知の問題

この MCP サーバーを Claude Desktop Host で使用する場合:

  1. パフォーマンスの問題transform_image_from_encoded使用すると、他の方法と比較して処理時間が大幅に長くなる可能性があります。これは、MCP プロトコルを介して大きな base64 エンコードされた画像データを転送する際のオーバーヘッドが原因です。
  2. パス解決の問題:Claude Desktop Host の使用時に、画像パスを正しく解決できない問題が発生する可能性があります。ホストアプリケーションが返されたファイルパスを正しく解釈できず、生成された画像にアクセスできなくなる可能性があります。

最良のエクスペリエンスを得るには、可能な場合は代替の MCP クライアントまたはtransform_image_from_fileメソッドの使用を検討してください。

2. transform_image_from_encoded

base64 でエンコードされた画像データを使用して、テキスト プロンプトに基づいて既存の画像を変換します。

transform_image_from_encoded(encoded_image: str, prompt: str) -> Tuple[bytes, str]

パラメータ:

  • encoded_image : フォーマットヘッダー付きのBase64エンコードされた画像データ(形式は「data:image/[format];base64,[data]」である必要があります)
  • prompt : 画像をどのように変換したいかのテキスト説明

戻り値:

  • 次の内容を含むタプル:
    • 変換された生画像データ(バイト)
    • 保存された変換された画像ファイルへのパス(str)

例:

  • 「この風景に雪を加えよう」
  • 「背景をビーチに変更」

3. ファイルtransform_image_from_file

テキスト プロンプトに基づいて既存の画像ファイルを変換します。

transform_image_from_file(image_file_path: str, prompt: str) -> Tuple[bytes, str]

パラメータ:

  • image_file_path : 変換する画像ファイルへのパス
  • prompt : 画像をどのように変換したいかのテキスト説明

戻り値:

  • 次の内容を含むタプル:
    • 変換された生画像データ(バイト)
    • 保存された変換された画像ファイルへのパス(str)

例:

  • 「この画像の人物の隣にラマを追加してください」
  • 「この昼間のシーンを夜のように見せましょう」

変換例

上記で作成した空飛ぶ豚の画像を使用して、次のプロンプトで変換を適用しました。

"Add a cute baby whale flying alongside the pig"

前に:

後:

かわいい赤ちゃんクジラが一緒に飛んでいるオリジナルの空飛ぶ豚の画像

設定

前提条件

  • Python 3.11以上
  • Google AI API キー (Gemini)
  • MCP ホスト アプリケーション (Claude デスクトップ アプリ、カーソル、またはその他の MCP 互換クライアント)

Gemini APIキーの取得

  1. Google AI Studio APIキーページにアクセスしてください
  2. Googleアカウントでログイン
  3. 「APIキーを作成」をクリックします
  4. 設定で使用するために新しいAPIキーをコピーします
  5. 注: APIキーは、毎月一定量の無料利用を提供します。使用量はGoogle AI Studioで確認できます。

インストール

  1. リポジトリをクローンします。
git clone https://github.com/your-username/gemini-image-generator.git cd gemini-image-generator
  1. 仮想環境を作成し、依存関係をインストールします。
# Using regular venv python -m venv .venv source .venv/bin/activate pip install -e . # Or using uv uv venv source .venv/bin/activate uv pip install -e .
  1. サンプル環境ファイルをコピーし、API キーを追加します。
cp .env.example .env
  1. .envファイルを編集して、Google Gemini API キーと優先出力パスを追加します。
GEMINI_API_KEY="your-gemini-api-key-here" OUTPUT_IMAGE_PATH="/path/to/save/images"

Claudeデスクトップの設定

claude_desktop_config.jsonに以下を追加します。

  • macOS : ~/Library/Application Support/Claude/claude_desktop_config.json
{ "mcpServers": { "gemini-image-generator": { "command": "uv", "args": [ "--directory", "/absolute/path/to/gemini-image-generator", "run", "server.py" ], "env": { "GEMINI_API_KEY": "GEMINI_API_KEY", "OUTPUT_IMAGE_PATH": "OUTPUT_IMAGE_PATH" } } } }

使用法

インストールして設定したら、次のようなプロンプトを使用して、Claude に画像を生成または変換するように依頼できます。

新しい画像の生成

  • 「山に沈む夕日の画像を生成する」
  • 「未来都市の風景をイラストで表現する」
  • 「サングラスをかけた猫の絵を描いてください」

既存の画像の変換

  • 「シーンに雪を追加してこの画像を変形させます」
  • 「この写真を編集して夜に撮ったように見せてください」
  • 「この写真の背景に飛んでいるドラゴンを追加してください」

生成/変換された画像は、設定された出力パスに保存され、Claudeに表示されます。更新された戻り値の型により、AIアシスタントは保存されたファイルにアクセスすることなく、画像データを直接操作できるようになります。

テスト

FastMCP 開発サーバーを実行してアプリケーションをテストできます。

fastmcp dev server.py

このコマンドはローカル開発サーバーを起動し、MCP Inspector をhttp://localhost:5173/で利用できるようにします。MCP Inspector は便利なウェブインターフェースを提供しており、Claude や他の MCP クライアントを使用せずに画像生成ツールを直接テストできます。テキストプロンプトを入力してツールを実行すると、すぐに結果が表示されるため、開発やデバッグに役立ちます。

ライセンス

MITライセンス

-
security - not tested
F
license - not found
-
quality - not tested

AI アシスタントが MCP プロトコル経由で Google の Gemini モデルを使用してテキスト プロンプトから高品質の画像を生成および変換できるようにします。

  1. Overview
    1. Features
      1. Available MCP Tools
        1. 1. generate_image_from_text
        2. Known Issues
        3. 2. transform_image_from_encoded
        4. 3. transform_image_from_file
      2. Setup
        1. Prerequisites
        2. Getting a Gemini API Key
        3. Installation
        4. Configure Claude Desktop
      3. Usage
        1. Generating New Images
        2. Transforming Existing Images
      4. Testing
        1. License
          ID: zrvlhnb942