Skip to main content
Glama
mordor-forge

gemini-media-mcp

gemini-media-mcp

Go License

Google Gemini API 및 Vertex AI를 통한 AI 미디어 생성을 위한 통합 Go MCP 서버.

기능

  • 이미지 생성 -- 구성 가능한 가로세로 비율 및 해상도(1K/2K/4K)를 지원하는 텍스트-이미지 변환

  • 이미지 편집 -- 자연어 프롬프트를 사용하여 기존 이미지 수정

  • 다중 참조 구성 -- 스타일/콘텐츠 가이드를 사용하여 최대 3개의 참조 이미지 결합

  • 비디오 생성 -- Veo 3.1 Lite, Fast 및 Standard 티어를 통한 텍스트-비디오 변환

  • 이미지-비디오 변환 -- 정지 이미지를 비디오 클립으로 애니메이션화

  • 비디오 확장 -- 더 긴 콘텐츠를 위해 클립 연결(Fast 및 Standard 티어)

  • 텍스트-음성 변환(TTS) -- 구성 가능한 음성과 언어로 음성 오디오 생성

  • 음악 생성 -- Lyria 3를 통한 AI 음악(30초 클립 또는 보컬이 포함된 전체 곡, 구조 제어)

  • 단일 바이너리 -- 런타임 종속성 없음, stdio 전송을 통해 실행

  • 공급자 추상화 -- 이미지, 비디오, 오디오 및 모델 작업을 위한 백엔드 독립적 인터페이스

  • 듀얼 백엔드 -- Gemini API(API 키) 및 Vertex AI(프로젝트 자격 증명) 모두 지원

빠른 시작

# Install
go install github.com/mordor-forge/gemini-media-mcp/cmd/gemini-media-mcp@latest

# Configure (Gemini API; either variable name works)
export GEMINI_API_KEY="your-api-key"
# export GOOGLE_API_KEY="your-api-key"

# Or configure (Vertex AI)
export GOOGLE_CLOUD_PROJECT="your-project-id"
export GOOGLE_CLOUD_LOCATION="us-central1"

# Run directly (stdio transport)
gemini-media-mcp

그런 다음 MCP 클라이언트에 추가하십시오. 아래의 MCP 클라이언트 구성을 참조하십시오.

구성

변수

필수

기본값

설명

GOOGLE_API_KEY

예*

--

Gemini API 키. GEMINI_API_KEY도 허용됨

GOOGLE_CLOUD_PROJECT

예*

--

Vertex AI 백엔드를 위한 GCP 프로젝트 ID

GOOGLE_CLOUD_LOCATION

아니요

us-central1

Vertex AI를 위한 GCP 리전

MEDIA_OUTPUT_DIR

아니요

~/generated_media

저장된 미디어 파일을 위한 디렉토리

*GOOGLE_API_KEY 또는 GOOGLE_CLOUD_PROJECT 중 하나는 반드시 설정해야 합니다. 둘 다 설정된 경우 API 키가 우선합니다(다른 도구를 위해 셸에서 GOOGLE_CLOUD_PROJECT가 설정된 경우 충돌 방지).

어떤 백엔드가 활성화되어 있는지 확실하지 않은 경우, MCP 클라이언트에서 get_config를 호출하여 선택된 백엔드와 출력 디렉토리를 확인하십시오.

사용 가능한 도구

도구

설명

유형

generate_image

텍스트 프롬프트에서 이미지 생성

동기

edit_image

텍스트 프롬프트로 기존 이미지 편집

동기

compose_images

다중 참조 이미지 구성(최대 3개)

동기

generate_video

텍스트 프롬프트에서 비디오 생성(작업 ID 반환)

비동기

animate_image

이미지를 비디오로 애니메이션화(첫 번째 프레임)

비동기

extend_video

더 긴 콘텐츠를 위해 비디오 클립 연결

비동기

video_status

비디오 생성 진행 상황 확인

동기

download_video

완료된 비디오 다운로드

동기

generate_audio

텍스트에서 음성 오디오 생성(TTS)

동기

generate_music

텍스트 설명에서 AI 음악 생성(Lyria)

동기

list_models

기능 및 가격과 함께 사용 가능한 모델 표시

동기

get_config

현재 백엔드 및 구성 표시

동기

비동기 도구는 작업 ID를 즉시 반환합니다. video_status를 사용하여 완료 여부를 폴링한 다음 download_video를 사용하여 파일을 검색하십시오.

모델 티어

이미지

티어

모델

용도

비용

nb2 (기본값)

gemini-3.1-flash-image-preview

빠른 반복, 대부분의 작업

~$0.067/img

pro

gemini-3-pro-image-preview

최종 렌더링, 복잡한 장면

~$0.134/img

두 티어 모두 1K, 2K, 4K 해상도와 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9 가로세로 비율을 지원합니다.

비디오

티어

모델

용도

비용

lite (기본값)

veo-3.1-lite-generate-preview

대량 작업, 초안

$0.05/초 (720p), $0.08/초 (1080p)

fast

veo-3.1-fast-generate-preview

좋은 품질의 반복

$0.15/초 (720p/1080p), $0.35/초 (4k)

standard

veo-3.1-generate-preview

최종 렌더링, 4K

$0.40/초 (720p/1080p), $0.60/초 (4k)

지원되는 가로세로 비율은 16:99:16입니다. 지원되는 길이는 4, 6, 8초입니다. Lite는 720p1080p를 지원합니다. Fast 및 Standard는 720p, 1080p4K를 지원합니다. 비디오 확장(extend_video)은 Fast 및 Standard 티어에서만 사용할 수 있으며, 확장 티어는 원래 생성 티어와 일치해야 합니다.

오디오 (TTS)

티어

모델

용도

비용

tts

gemini-2.5-flash-preview-tts

자연스러운 음성의 텍스트-음성 변환

표준 Gemini 토큰 가격

generate_audio 도구는 텍스트를 음성 오디오로 변환합니다. 다음을 지원합니다:

  • 음성 선택 -- Aoede, Kore, Puck 등과 같은 사전 구축된 음성 중에서 선택. 기본값: Aoede

  • 언어 -- 언어 코드 설정(예: en-US, it-IT, cs-CZ, de-DE). 기본값: en-US

  • 자연스러운 음성 -- 적절한 속도와 억양으로 표현력이 풍부하고 자연스러운 음성 생성

출력은 원시 PCM 오디오(audio/L16, 24kHz 샘플링 레이트)로 저장됩니다. 이 파일은 ffplay와 같은 도구로 재생하거나 다른 형식으로 변환할 수 있습니다:

# Play directly
ffplay -f s16le -ar 24000 -ac 1 ~/generated_media/audio-2026-04-02T12-20-12-0603.pcm

# Convert to WAV
ffmpeg -f s16le -ar 24000 -ac 1 -i audio.pcm audio.wav

# Convert to MP3
ffmpeg -f s16le -ar 24000 -ac 1 -i audio.pcm audio.mp3

음악 (Lyria)

티어

모델

출력

용도

비용

clip (기본값)

lyria-3-clip-preview

30초 클립

빠른 반복, 사운드 디자인

~$0.08/곡

full

lyria-3-pro-preview

최대 ~3분

보컬, 절, 후렴구가 포함된 전체 곡

토큰 기반

generate_music 도구는 텍스트 설명에서 AI 생성 음악을 만듭니다. 기능은 다음과 같습니다:

  • 장르 및 스타일 -- 장르, 악기, BPM, 키/스케일, 분위기 지정

  • 구조 제어 -- [Verse], [Chorus], [Bridge], [Intro], [Outro]와 같은 태그 사용

  • 사용자 지정 가사 -- 보컬 트랙을 위한 섹션 마커가 포함된 가사 포함

  • 타임스탬프 제어 -- 정확한 섹션 타이밍을 위한 [0:00 - 0:10] Intro: gentle piano... 사용

  • 다국어 -- 프롬프트 언어가 출력 언어를 결정

  • 고충실도 -- 48kHz 스테레오 MP3 출력

생성된 모든 음악에는 SynthID 워터마크가 표시됩니다.

프롬프트 예시:

# Instrumental
"A gentle acoustic guitar melody in C major, 90 BPM, calm and peaceful indie folk"

# With structure
"[Intro] Ambient synth pad, ethereal
[Verse] Lo-fi hip-hop beat, mellow piano chords, vinyl crackle
[Chorus] Uplifting, add strings and gentle drums
[Outro] Fade out with reverb"

# With lyrics
"Upbeat pop song, 120 BPM, major key
[Chorus] We're dancing in the light / Everything feels right / Under stars so bright tonight"

티어 이름(lite, fast, standard, nb2, pro, tts, clip, full) 또는 원시 모델 ID를 직접 전달할 수 있습니다.

MCP 클라이언트 구성

Claude Code

Claude Code MCP 설정(~/.claude/settings.json 또는 프로젝트 .mcp.json)에 추가하십시오:

{
  "mcpServers": {
    "gemini-media": {
      "command": "gemini-media-mcp",
      "env": {
        "GOOGLE_API_KEY": "your-api-key",
        "MEDIA_OUTPUT_DIR": "/path/to/output"
      }
    }
  }
}

위의 env 블록에서 GOOGLE_API_KEY 또는 GEMINI_API_KEY를 사용하십시오. 둘 다 허용됩니다.

또는 소스에서 빌드하는 경우:

{
  "mcpServers": {
    "gemini-media": {
      "command": "/path/to/gemini-media-mcp",
      "env": {
        "GOOGLE_API_KEY": "your-api-key"
      }
    }
  }
}

Claude Code를 위한 동반 기술

skills/ 디렉토리에는 MCP 도구 위에서 대화형 워크플로우를 제공하는 Claude Code 기술이 포함되어 있습니다. 각 기술은 특정 미디어 유형에 대한 프롬프트 엔지니어링, 모델 선택 및 반복적인 개선 과정을 통해 Claude를 안내합니다.

기술

디렉토리

설명

gemini-image-gen

skills/gemini-image-gen/

이미지 생성, 편집 및 다중 참조 구성

video-gen

skills/video-gen/

비동기 폴링, 이미지-비디오 변환, 확장을 포함한 비디오 생성

music-gen

skills/music-gen/

구조 태그, 가사, 장르 제어를 포함한 음악 생성

tts-gen

skills/tts-gen/

음성 및 언어 선택을 포함한 텍스트-음성 변환

기술을 설치하려면 해당 디렉토리를 ~/.claude/skills/로 복사하십시오:

cp -r skills/video-gen ~/.claude/skills/
cp -r skills/music-gen ~/.claude/skills/
cp -r skills/tts-gen ~/.claude/skills/
cp -r skills/gemini-image-gen ~/.claude/skills/

기술은 선택 사항입니다. MCP 도구는 기술 없이도 작동합니다. 하지만 기술은 프롬프트 엔지니어링 가이드, 모델 티어 권장 사항 및 출력 품질을 크게 향상시키는 대화형 검토 워크플로우를 추가합니다.

소스에서 빌드

git clone https://github.com/mordor-forge/gemini-media-mcp.git
cd gemini-media-mcp
go build ./cmd/gemini-media-mcp/

바이너리는 ./gemini-media-mcp에 생성됩니다.

테스트를 실행하려면:

go test ./...

기여

  1. 저장소 포크

  2. 기능 브랜치 생성 (git checkout -b feature/your-feature)

  3. 변경 사항을 적용하고 테스트 추가

  4. go test ./...go vet ./... 실행

  5. 변경 사항 커밋

  6. main 브랜치에 대한 풀 리퀘스트 열기

라이선스

Apache-2.0

Install Server
A
security – no known vulnerabilities
A
license - permissive license
A
quality - A tier

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/mordor-forge/gemini-media-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server