gemini-media-mcp
gemini-media-mcp
Google Gemini APIおよびVertex AIを介したAIメディア生成のための統合Go MCPサーバー。
機能
画像生成 -- 設定可能なアスペクト比と解像度(1K/2K/4K)によるテキストから画像への生成
画像編集 -- 自然言語プロンプトを使用して既存の画像を編集
マルチリファレンス合成 -- 最大3つの参照画像をスタイル/コンテンツのガイダンスと組み合わせて使用
動画生成 -- Veo 3.1 Lite、Fast、Standardティアによるテキストから動画への生成
画像から動画への変換 -- 静止画を動画クリップにアニメーション化
動画拡張 -- クリップを連結してより長いコンテンツを作成(FastおよびStandardティア)
テキスト読み上げ(TTS) -- 設定可能な声と言語で音声を作成
音楽生成 -- Lyria 3によるAI音楽生成(30秒のクリップ、またはボーカルと構造制御を備えたフルソング)
単一バイナリ -- ランタイム依存関係なし、stdioトランスポート上で実行
プロバイダー抽象化 -- 画像、動画、音声、モデル操作のためのバックエンド非依存インターフェース
デュアルバックエンド -- Gemini API(APIキー)とVertex AI(プロジェクト認証情報)の両方をサポート
クイックスタート
# Install
go install github.com/mordor-forge/gemini-media-mcp/cmd/gemini-media-mcp@latest
# Configure (Gemini API; either variable name works)
export GEMINI_API_KEY="your-api-key"
# export GOOGLE_API_KEY="your-api-key"
# Or configure (Vertex AI)
export GOOGLE_CLOUD_PROJECT="your-project-id"
export GOOGLE_CLOUD_LOCATION="us-central1"
# Run directly (stdio transport)
gemini-media-mcp次に、MCPクライアントに追加します。以下のMCPクライアント設定を参照してください。
設定
変数 | 必須 | デフォルト | 説明 |
| はい* | -- | Gemini APIキー。 |
| はい* | -- | Vertex AIバックエンド用のGCPプロジェクトID |
| いいえ |
| Vertex AI用のGCPリージョン |
| いいえ |
| 保存されたメディアファイルのディレクトリ |
*GOOGLE_API_KEYまたはGOOGLE_CLOUD_PROJECTのいずれかが必要です。両方が設定されている場合、APIキーが優先されます(他のツールでGOOGLE_CLOUD_PROJECTがシェルに設定されている場合の競合を回避するため)。
どのバックエンドがアクティブか不明な場合は、MCPクライアントからget_configを呼び出して、選択されたバックエンドと出力ディレクトリを確認してください。
利用可能なツール
ツール | 説明 | タイプ |
| テキストプロンプトから画像を生成 | 同期 |
| テキストプロンプトで既存の画像を編集 | 同期 |
| マルチリファレンス画像合成(最大3つ) | 同期 |
| テキストプロンプトから動画を生成(操作IDを返す) | 非同期 |
| 画像を動画にアニメーション化(最初のフレーム) | 非同期 |
| 動画クリップを連結して長いコンテンツを作成 | 非同期 |
| 動画生成の進捗状況を確認 | 同期 |
| 完成した動画をダウンロード | 同期 |
| テキストから音声(TTS)を生成 | 同期 |
| テキスト説明からAI音楽を生成(Lyria) | 同期 |
| 利用可能なモデルと機能、価格を表示 | 同期 |
| 現在のバックエンドと設定を表示 | 同期 |
非同期ツールは操作IDを即座に返します。video_statusを使用して完了をポーリングし、その後download_videoを使用してファイルを取得してください。
モデルティア
画像
ティア | モデル | 最適な用途 | コスト |
nb2 (デフォルト) |
| 高速な反復、ほとんどのタスク | ~$0.067/枚 |
pro |
| 最終レンダリング、複雑なシーン | ~$0.134/枚 |
両方のティアで、解像度1K、2K、4K、およびアスペクト比1:1、2:3、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9をサポートしています。
動画
ティア | モデル | 最適な用途 | コスト |
lite (デフォルト) |
| 大量生成、ドラフト | $0.05/秒 (720p), $0.08/秒 (1080p) |
fast |
| 高品質な反復 | $0.15/秒 (720p/1080p), $0.35/秒 (4k) |
standard |
| 最終レンダリング、4K | $0.40/秒 (720p/1080p), $0.60/秒 (4k) |
サポートされているアスペクト比は16:9と9:16です。サポートされている長さは4、6、8秒です。Liteは720pと1080pをサポートします。FastとStandardは720p、1080p、4Kをサポートします。動画拡張(extend_video)はFastおよびStandardティアでのみ利用可能で、拡張ティアは元の生成ティアと一致する必要があります。
音声 (TTS)
ティア | モデル | 最適な用途 | コスト |
tts |
| 自然な声でのテキスト読み上げ | 標準Geminiトークン価格 |
generate_audioツールはテキストを音声に変換します。以下をサポートしています:
声の選択 --
Aoede、Kore、Puckなどのプリセット音声から選択。デフォルト:Aoede言語 -- 言語コードを設定(例:
en-US、it-IT、cs-CZ、de-DE)。デフォルト:en-US自然な発話 -- 適切なペースとイントネーションで、表現力豊かで自然な響きの音声を生成
出力は生のPCM音声(audio/L16、24kHzサンプリングレート)として保存されます。ファイルはffplayなどのツールで再生するか、他の形式に変換できます:
# Play directly
ffplay -f s16le -ar 24000 -ac 1 ~/generated_media/audio-2026-04-02T12-20-12-0603.pcm
# Convert to WAV
ffmpeg -f s16le -ar 24000 -ac 1 -i audio.pcm audio.wav
# Convert to MP3
ffmpeg -f s16le -ar 24000 -ac 1 -i audio.pcm audio.mp3音楽 (Lyria)
ティア | モデル | 出力 | 最適な用途 | コスト |
clip (デフォルト) |
| 30秒クリップ | 高速な反復、サウンドデザイン | ~$0.08/曲 |
full |
| 最大約3分 | ボーカル、バース、コーラスを含むフルソング | トークンベース |
generate_musicツールは、テキスト説明からAI生成音楽を作成します。機能は以下の通りです:
ジャンルとスタイル -- ジャンル、楽器、BPM、キー/スケール、ムードを指定
構造制御 --
[Verse]、[Chorus]、[Bridge]、[Intro]、[Outro]などのタグを使用カスタム歌詞 -- ボーカルトラック用にセクションマーカー付きの歌詞を含める
タイムスタンプ制御 --
[0:00 - 0:10] Intro: gentle piano...で正確なセクションタイミングを指定多言語 -- プロンプトの言語が出力言語を決定
高忠実度 -- 48kHzステレオMP3出力
生成されたすべての音楽にはSynthIDで透かしが入ります。
プロンプト例:
# Instrumental
"A gentle acoustic guitar melody in C major, 90 BPM, calm and peaceful indie folk"
# With structure
"[Intro] Ambient synth pad, ethereal
[Verse] Lo-fi hip-hop beat, mellow piano chords, vinyl crackle
[Chorus] Uplifting, add strings and gentle drums
[Outro] Fade out with reverb"
# With lyrics
"Upbeat pop song, 120 BPM, major key
[Chorus] We're dancing in the light / Everything feels right / Under stars so bright tonight"ティア名(lite、fast、standard、nb2、pro、tts、clip、full)または生のモデルIDを直接渡すことができます。
MCPクライアント設定
Claude Code
Claude CodeのMCP設定(~/.claude/settings.jsonまたはプロジェクトの.mcp.json)に追加します:
{
"mcpServers": {
"gemini-media": {
"command": "gemini-media-mcp",
"env": {
"GOOGLE_API_KEY": "your-api-key",
"MEDIA_OUTPUT_DIR": "/path/to/output"
}
}
}
}上記のenvブロックでGOOGLE_API_KEYまたはGEMINI_API_KEYのいずれかを使用してください。両方とも受け入れられます。
ソースからビルドする場合:
{
"mcpServers": {
"gemini-media": {
"command": "/path/to/gemini-media-mcp",
"env": {
"GOOGLE_API_KEY": "your-api-key"
}
}
}
}Claude Code用のコンパニオンスキル
skills/ディレクトリには、MCPツール上でインタラクティブなワークフローを提供するClaude Codeスキルが含まれています。各スキルは、特定のメディアタイプに対して、プロンプトエンジニアリング、モデル選択、反復的な改善を通じてClaudeをガイドします。
スキル | ディレクトリ | 説明 |
gemini-image-gen |
| 画像生成、編集、マルチリファレンス合成 |
video-gen |
| 非同期ポーリング、画像から動画への変換、拡張を含む動画生成 |
music-gen |
| 構造タグ、歌詞、ジャンル制御を含む音楽生成 |
tts-gen |
| 声と言語選択を含むテキスト読み上げ |
スキルをインストールするには、そのディレクトリを~/.claude/skills/にコピーします:
cp -r skills/video-gen ~/.claude/skills/
cp -r skills/music-gen ~/.claude/skills/
cp -r skills/tts-gen ~/.claude/skills/
cp -r skills/gemini-image-gen ~/.claude/skills/スキルはオプションです。MCPツールはスキルなしでも動作します。しかし、スキルを追加することで、プロンプトエンジニアリングのガイダンス、モデルティアの推奨、インタラクティブなレビューワークフローが提供され、出力品質が大幅に向上します。
ソースからのビルド
git clone https://github.com/mordor-forge/gemini-media-mcp.git
cd gemini-media-mcp
go build ./cmd/gemini-media-mcp/バイナリは./gemini-media-mcpに作成されます。
テストを実行するには:
go test ./...貢献
リポジトリをフォーク
フィーチャーブランチを作成 (
git checkout -b feature/your-feature)変更を加え、テストを追加
go test ./...およびgo vet ./...を実行変更をコミット
mainに対してプルリクエストを開く
ライセンス
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/mordor-forge/gemini-media-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server