gemini-media-mcp

License

Google Gemini APIおよびVertex AIを介したAIメディア生成のための統合Go MCPサーバー。

機能

画像生成 -- 設定可能なアスペクト比と解像度（1K/2K/4K）によるテキストから画像への生成
画像編集 -- 自然言語プロンプトを使用して既存の画像を編集
マルチリファレンス合成 -- 最大3つの参照画像をスタイル/コンテンツのガイダンスと組み合わせて使用
動画生成 -- Veo 3.1 Lite、Fast、Standardティアによるテキストから動画への生成
画像から動画への変換 -- 静止画を動画クリップにアニメーション化
動画拡張 -- クリップを連結してより長いコンテンツを作成（FastおよびStandardティア）
テキスト読み上げ（TTS） -- 設定可能な声と言語で音声を作成
音楽生成 -- Lyria 3によるAI音楽生成（30秒のクリップ、またはボーカルと構造制御を備えたフルソング）
単一バイナリ -- ランタイム依存関係なし、stdioトランスポート上で実行
プロバイダー抽象化 -- 画像、動画、音声、モデル操作のためのバックエンド非依存インターフェース
デュアルバックエンド -- Gemini API（APIキー）とVertex AI（プロジェクト認証情報）の両方をサポート

クイックスタート

# Install
go install github.com/mordor-forge/gemini-media-mcp/cmd/gemini-media-mcp@latest

# Configure (Gemini API; either variable name works)
export GEMINI_API_KEY="your-api-key"
# export GOOGLE_API_KEY="your-api-key"

# Or configure (Vertex AI)
export GOOGLE_CLOUD_PROJECT="your-project-id"
export GOOGLE_CLOUD_LOCATION="us-central1"

# Run directly (stdio transport)
gemini-media-mcp

次に、MCPクライアントに追加します。以下のMCPクライアント設定を参照してください。

設定

変数	必須	デフォルト	説明
`GOOGLE_API_KEY`	はい*	--	Gemini APIキー。`GEMINI_API_KEY`も使用可能
`GOOGLE_CLOUD_PROJECT`	はい*	--	Vertex AIバックエンド用のGCPプロジェクトID
`GOOGLE_CLOUD_LOCATION`	いいえ	`us-central1`	Vertex AI用のGCPリージョン
`MEDIA_OUTPUT_DIR`	いいえ	`~/generated_media`	保存されたメディアファイルのディレクトリ

*GOOGLE_API_KEYまたはGOOGLE_CLOUD_PROJECTのいずれかが必要です。両方が設定されている場合、APIキーが優先されます（他のツールでGOOGLE_CLOUD_PROJECTがシェルに設定されている場合の競合を回避するため）。

どのバックエンドがアクティブか不明な場合は、MCPクライアントからget_configを呼び出して、選択されたバックエンドと出力ディレクトリを確認してください。

利用可能なツール

ツール	説明	タイプ
`generate_image`	テキストプロンプトから画像を生成	同期
`edit_image`	テキストプロンプトで既存の画像を編集	同期
`compose_images`	マルチリファレンス画像合成（最大3つ）	同期
`generate_video`	テキストプロンプトから動画を生成（操作IDを返す）	非同期
`animate_image`	画像を動画にアニメーション化（最初のフレーム）	非同期
`extend_video`	動画クリップを連結して長いコンテンツを作成	非同期
`video_status`	動画生成の進捗状況を確認	同期
`download_video`	完成した動画をダウンロード	同期
`generate_audio`	テキストから音声（TTS）を生成	同期
`generate_music`	テキスト説明からAI音楽を生成（Lyria）	同期
`list_models`	利用可能なモデルと機能、価格を表示	同期
`get_config`	現在のバックエンドと設定を表示	同期

非同期ツールは操作IDを即座に返します。video_statusを使用して完了をポーリングし、その後download_videoを使用してファイルを取得してください。

モデルティア

画像

ティア	モデル	最適な用途	コスト
nb2 (デフォルト)	`gemini-3.1-flash-image-preview`	高速な反復、ほとんどのタスク	~$0.067/枚
pro	`gemini-3-pro-image-preview`	最終レンダリング、複雑なシーン	~$0.134/枚

両方のティアで、解像度1K、2K、4K、およびアスペクト比1:1、2:3、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9をサポートしています。

動画

ティア	モデル	最適な用途	コスト
lite (デフォルト)	`veo-3.1-lite-generate-preview`	大量生成、ドラフト	$0.05/秒 (720p), $0.08/秒 (1080p)
fast	`veo-3.1-fast-generate-preview`	高品質な反復	$0.15/秒 (720p/1080p), $0.35/秒 (4k)
standard	`veo-3.1-generate-preview`	最終レンダリング、4K	$0.40/秒 (720p/1080p), $0.60/秒 (4k)

サポートされているアスペクト比は16:9と9:16です。サポートされている長さは4、6、8秒です。Liteは720pと1080pをサポートします。FastとStandardは720p、1080p、4Kをサポートします。動画拡張（extend_video）はFastおよびStandardティアでのみ利用可能で、拡張ティアは元の生成ティアと一致する必要があります。

音声 (TTS)

ティア	モデル	最適な用途	コスト
tts	`gemini-2.5-flash-preview-tts`	自然な声でのテキスト読み上げ	標準Geminiトークン価格

generate_audioツールはテキストを音声に変換します。以下をサポートしています：

声の選択 -- Aoede、Kore、Puckなどのプリセット音声から選択。デフォルト: Aoede
言語 -- 言語コードを設定（例: en-US、it-IT、cs-CZ、de-DE）。デフォルト: en-US
自然な発話 -- 適切なペースとイントネーションで、表現力豊かで自然な響きの音声を生成

出力は生のPCM音声（audio/L16、24kHzサンプリングレート）として保存されます。ファイルはffplayなどのツールで再生するか、他の形式に変換できます：

# Play directly
ffplay -f s16le -ar 24000 -ac 1 ~/generated_media/audio-2026-04-02T12-20-12-0603.pcm

# Convert to WAV
ffmpeg -f s16le -ar 24000 -ac 1 -i audio.pcm audio.wav

# Convert to MP3
ffmpeg -f s16le -ar 24000 -ac 1 -i audio.pcm audio.mp3

音楽 (Lyria)

ティア	モデル	出力	最適な用途	コスト
clip (デフォルト)	`lyria-3-clip-preview`	30秒クリップ	高速な反復、サウンドデザイン	~$0.08/曲
full	`lyria-3-pro-preview`	最大約3分	ボーカル、バース、コーラスを含むフルソング	トークンベース

generate_musicツールは、テキスト説明からAI生成音楽を作成します。機能は以下の通りです：

ジャンルとスタイル -- ジャンル、楽器、BPM、キー/スケール、ムードを指定
構造制御 -- [Verse]、[Chorus]、[Bridge]、[Intro]、[Outro]などのタグを使用
カスタム歌詞 -- ボーカルトラック用にセクションマーカー付きの歌詞を含める
タイムスタンプ制御 -- [0:00 - 0:10] Intro: gentle piano... で正確なセクションタイミングを指定
多言語 -- プロンプトの言語が出力言語を決定
高忠実度 -- 48kHzステレオMP3出力

生成されたすべての音楽にはSynthIDで透かしが入ります。

プロンプト例:

# Instrumental
"A gentle acoustic guitar melody in C major, 90 BPM, calm and peaceful indie folk"

# With structure
"[Intro] Ambient synth pad, ethereal
[Verse] Lo-fi hip-hop beat, mellow piano chords, vinyl crackle
[Chorus] Uplifting, add strings and gentle drums
[Outro] Fade out with reverb"

# With lyrics
"Upbeat pop song, 120 BPM, major key
[Chorus] We're dancing in the light / Everything feels right / Under stars so bright tonight"

ティア名（lite、fast、standard、nb2、pro、tts、clip、full）または生のモデルIDを直接渡すことができます。

MCPクライアント設定

Claude Code

Claude CodeのMCP設定（~/.claude/settings.jsonまたはプロジェクトの.mcp.json）に追加します：

{
  "mcpServers": {
    "gemini-media": {
      "command": "gemini-media-mcp",
      "env": {
        "GOOGLE_API_KEY": "your-api-key",
        "MEDIA_OUTPUT_DIR": "/path/to/output"
      }
    }
  }
}

上記のenvブロックでGOOGLE_API_KEYまたはGEMINI_API_KEYのいずれかを使用してください。両方とも受け入れられます。

ソースからビルドする場合：

{
  "mcpServers": {
    "gemini-media": {
      "command": "/path/to/gemini-media-mcp",
      "env": {
        "GOOGLE_API_KEY": "your-api-key"
      }
    }
  }
}

Claude Code用のコンパニオンスキル

skills/ディレクトリには、MCPツール上でインタラクティブなワークフローを提供するClaude Codeスキルが含まれています。各スキルは、特定のメディアタイプに対して、プロンプトエンジニアリング、モデル選択、反復的な改善を通じてClaudeをガイドします。

スキル	ディレクトリ	説明
gemini-image-gen	`skills/gemini-image-gen/`	画像生成、編集、マルチリファレンス合成
video-gen	`skills/video-gen/`	非同期ポーリング、画像から動画への変換、拡張を含む動画生成
music-gen	`skills/music-gen/`	構造タグ、歌詞、ジャンル制御を含む音楽生成
tts-gen	`skills/tts-gen/`	声と言語選択を含むテキスト読み上げ

スキルをインストールするには、そのディレクトリを~/.claude/skills/にコピーします：

cp -r skills/video-gen ~/.claude/skills/
cp -r skills/music-gen ~/.claude/skills/
cp -r skills/tts-gen ~/.claude/skills/
cp -r skills/gemini-image-gen ~/.claude/skills/

スキルはオプションです。MCPツールはスキルなしでも動作します。しかし、スキルを追加することで、プロンプトエンジニアリングのガイダンス、モデルティアの推奨、インタラクティブなレビューワークフローが提供され、出力品質が大幅に向上します。

ソースからのビルド

git clone https://github.com/mordor-forge/gemini-media-mcp.git
cd gemini-media-mcp
go build ./cmd/gemini-media-mcp/

バイナリは./gemini-media-mcpに作成されます。

テストを実行するには：

go test ./...

貢献

リポジトリをフォーク
フィーチャーブランチを作成 (git checkout -b feature/your-feature)
変更を加え、テストを追加
go test ./... および go vet ./... を実行
変更をコミット
main に対してプルリクエストを開く

ライセンス

Apache-2.0

gemini-media-mcp

gemini-media-mcp

機能

クイックスタート

設定

利用可能なツール

モデルティア

画像

動画

音声 (TTS)

音楽 (Lyria)

MCPクライアント設定

Claude Code

Claude Code用のコンパニオンスキル

ソースからのビルド

貢献

ライセンス

Resources

Tools

Latest Blog Posts

MCP directory API