Gemini Image Generator MCP Server

by qhdrl12
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Supports environment variable configuration through .env files for storing API keys and output path settings.

  • Enables text-to-image generation and image transformation using Google's Gemini AI model, supporting high-resolution image creation from text prompts and modification of existing images based on textual descriptions.

  • Includes specific configuration paths for macOS users to set up the MCP server with Claude Desktop.

제미니 이미지 생성기 MCP 서버

MCP 프로토콜을 통해 Google의 Gemini 모델을 사용하여 텍스트 프롬프트에서 고품질 이미지를 생성합니다.

개요

이 MCP 서버를 통해 모든 AI 비서가 Google의 Gemini AI 모델을 사용하여 이미지를 생성할 수 있습니다. 이 서버는 신속한 엔지니어링, 텍스트-이미지 변환, 파일 이름 생성 및 로컬 이미지 저장을 처리하여 모든 MCP 클라이언트를 통해 AI 생성 이미지를 쉽게 생성하고 관리할 수 있도록 합니다.

특징

  • Gemini 2.0 Flash를 사용한 텍스트-이미지 생성
  • 텍스트 프롬프트 기반 이미지-이미지 변환
  • 파일 기반 및 base64 인코딩 이미지 모두 지원
  • 프롬프트 기반 자동 지능형 파일 이름 생성
  • 영어가 아닌 프롬프트의 자동 번역
  • 구성 가능한 출력 경로를 갖춘 로컬 이미지 저장소
  • 생성된 이미지에서 엄격한 텍스트 제외
  • 고해상도 이미지 출력
  • 이미지 데이터와 파일 경로에 직접 액세스

사용 가능한 MCP 도구

서버는 AI 어시스턴트를 위해 다음과 같은 MCP 도구를 제공합니다.

1. 텍스트 generate_image_from_text

텍스트 프롬프트 설명에서 새로운 이미지를 만듭니다.

지엑스피1

매개변수:

  • prompt : 생성하려는 이미지에 대한 텍스트 설명

보고:

  • 다음을 포함하는 튜플:
    • 원시 이미지 데이터(바이트)
    • 저장된 이미지 파일(str)의 경로

이러한 이중 반환 형식을 사용하면 AI 보조원이 이미지 데이터를 직접 사용하거나 저장된 파일 경로를 참조할 수 있습니다.

예:

  • "산 위로 지는 일몰 이미지를 생성합니다"
  • "공상과학 도시에서 사진처럼 사실적인 비행 돼지를 만들어 보세요"

출력 예

이 이미지는 다음 프롬프트를 사용하여 생성되었습니다.

"Hi, can you create a 3d rendered image of a pig with wings and a top hat flying over a happy futuristic scifi city with lots of greenery?"

푸른 나무로 가득한 미래형 SF 도시 위를 날고 있는 날개 달린 3D 렌더링 돼지와 실크햇

알려진 문제

Claude Desktop Host와 함께 이 MCP 서버를 사용하는 경우:

  1. 성능 문제 : transform_image_from_encoded 사용하면 다른 방법에 비해 처리 시간이 상당히 오래 걸릴 수 있습니다. 이는 MCP 프로토콜을 통해 대용량 base64 인코딩 이미지 데이터를 전송하는 오버헤드 때문입니다.
  2. 경로 확인 문제 : Claude Desktop Host를 사용할 때 이미지 경로를 올바르게 확인하는 데 문제가 있을 수 있습니다. 호스트 애플리케이션이 반환된 파일 경로를 제대로 해석하지 못해 생성된 이미지에 액세스하기 어려울 수 있습니다.

최상의 환경을 위해 가능하다면 대체 MCP 클라이언트나 transform_image_from_file 메서드를 사용하는 것을 고려하세요.

2. transform_image_from_encoded

base64로 인코딩된 이미지 데이터를 사용하여 텍스트 프롬프트를 기반으로 기존 이미지를 변환합니다.

transform_image_from_encoded(encoded_image: str, prompt: str) -> Tuple[bytes, str]

매개변수:

  • encoded_image : 형식 헤더가 있는 Base64로 인코딩된 이미지 데이터(형식은 "data:image/[format];base64,[data]"여야 함)
  • prompt : 이미지를 어떻게 변환할 것인지에 대한 텍스트 설명

보고:

  • 다음을 포함하는 튜플:
    • 원시 변환된 이미지 데이터(바이트)
    • 저장된 변환된 이미지 파일(str)의 경로

예:

  • "이 풍경에 눈을 더하세요"
  • "배경을 해변으로 바꿔요"

3. 파일 transform_image_from_file

텍스트 프롬프트를 기반으로 기존 이미지 파일을 변환합니다.

transform_image_from_file(image_file_path: str, prompt: str) -> Tuple[bytes, str]

매개변수:

  • image_file_path : 변환할 이미지 파일의 경로
  • prompt : 이미지를 어떻게 변환할 것인지에 대한 텍스트 설명

보고:

  • 다음을 포함하는 튜플:
    • 원시 변환된 이미지 데이터(바이트)
    • 저장된 변환된 이미지 파일(str)의 경로

예:

  • "이 이미지 속 사람 옆에 라마를 추가하세요"
  • "이 낮의 장면을 밤처럼 보이게 만들어 보세요"

예제 변환

위에서 만든 날아다니는 돼지 이미지를 사용하여 다음과 같은 프롬프트로 변환을 적용했습니다.

"Add a cute baby whale flying alongside the pig"

전에:

후에:

귀여운 아기 고래가 함께 날아다니는 원래의 날아다니는 돼지 이미지

설정

필수 조건

  • 파이썬 3.11+
  • Google AI API 키(Gemini)
  • MCP 호스트 애플리케이션(Claude Desktop App, Cursor 또는 기타 MCP 호환 클라이언트)

Gemini API 키 받기

  1. Google AI Studio API 키 페이지 방문
  2. Google 계정으로 로그인하세요
  3. "API 키 생성"을 클릭하세요
  4. 구성에 사용할 새 API 키를 복사하세요.
  5. 참고: API 키는 매월 일정량의 무료 사용량을 제공합니다. Google AI Studio에서 사용량을 확인할 수 있습니다.

설치

  1. 저장소를 복제합니다.
git clone https://github.com/your-username/gemini-image-generator.git cd gemini-image-generator
  1. 가상 환경을 만들고 종속성을 설치합니다.
# Using regular venv python -m venv .venv source .venv/bin/activate pip install -e . # Or using uv uv venv source .venv/bin/activate uv pip install -e .
  1. 예제 환경 파일을 복사하고 API 키를 추가하세요.
cp .env.example .env
  1. Google Gemini API 키와 원하는 출력 경로를 포함하도록 .env 파일을 편집합니다.
GEMINI_API_KEY="your-gemini-api-key-here" OUTPUT_IMAGE_PATH="/path/to/save/images"

Claude Desktop 구성

claude_desktop_config.json 에 다음을 추가하세요.

  • macOS : ~/Library/Application Support/Claude/claude_desktop_config.json
{ "mcpServers": { "gemini-image-generator": { "command": "uv", "args": [ "--directory", "/absolute/path/to/gemini-image-generator", "run", "server.py" ], "env": { "GEMINI_API_KEY": "GEMINI_API_KEY", "OUTPUT_IMAGE_PATH": "OUTPUT_IMAGE_PATH" } } } }

용법

설치 및 구성이 완료되면 다음과 같은 프롬프트를 사용하여 Claude에게 이미지를 생성하거나 변환하도록 요청할 수 있습니다.

새로운 이미지 생성

  • "산 위로 지는 일몰 이미지를 생성합니다"
  • "미래지향적인 도시 풍경을 그림으로 표현해보세요"
  • "선글라스를 쓴 고양이 그림을 그려보세요"

기존 이미지 변환

  • "장면에 눈을 추가하여 이 이미지를 변형합니다."
  • "이 사진을 편집해서 밤에 찍은 것처럼 보이게 만들어주세요"
  • "이 사진의 배경에 날아다니는 용을 추가하세요"

생성/변환된 이미지는 구성된 출력 경로에 저장되고 Claude에 표시됩니다. 업데이트된 반환 유형을 통해 AI 비서는 저장된 파일에 접근하지 않고도 이미지 데이터에서 직접 작업할 수 있습니다.

테스트

FastMCP 개발 서버를 실행하여 애플리케이션을 테스트할 수 있습니다.

fastmcp dev server.py

이 명령은 로컬 개발 서버를 시작하고 http://localhost:5173/ 에서 MCP Inspector를 사용할 수 있도록 합니다. MCP Inspector는 Claude나 다른 MCP 클라이언트를 사용하지 않고도 이미지 생성 도구를 직접 테스트할 수 있는 편리한 웹 인터페이스를 제공합니다. 텍스트 프롬프트를 입력하고 도구를 실행하면 결과를 즉시 확인할 수 있어 개발 및 디버깅에 유용합니다.

특허

MIT 라이센스

-
security - not tested
F
license - not found
-
quality - not tested

MCP 프로토콜을 통해 Google의 Gemini 모델을 사용하여 AI 보조자가 텍스트 프롬프트에서 고품질 이미지를 생성하고 변환할 수 있도록 합니다.

  1. Overview
    1. Features
      1. Available MCP Tools
        1. 1. generate_image_from_text
        2. Known Issues
        3. 2. transform_image_from_encoded
        4. 3. transform_image_from_file
      2. Setup
        1. Prerequisites
        2. Getting a Gemini API Key
        3. Installation
        4. Configure Claude Desktop
      3. Usage
        1. Generating New Images
        2. Transforming Existing Images
      4. Testing
        1. License
          ID: zrvlhnb942