Skip to main content
Glama
mordor-forge

gemini-media-mcp

gemini-media-mcp

Go License

用于通过 Google Gemini API 和 Vertex AI 进行 AI 媒体生成的统一 Go MCP 服务器。

功能特性

  • 图像生成 —— 支持可配置宽高比和分辨率(1K/2K/4K)的文生图功能

  • 图像编辑 —— 使用自然语言提示词修改现有图像

  • 多参考图合成 —— 结合最多 3 张参考图,并提供风格/内容引导

  • 视频生成 —— 通过 Veo 3.1 Lite、Fast 和 Standard 层级进行文生视频

  • 图生视频 —— 将静态图像动画化为视频片段

  • 视频扩展 —— 串联片段以制作更长的内容(Fast 和 Standard 层级)

  • 文本转语音 (TTS) —— 生成带有可配置语音和语言的口语音频

  • 音乐生成 —— 通过 Lyria 3 生成 AI 音乐(30 秒片段或带有人声、结构控制的完整歌曲)

  • 单一二进制文件 —— 无运行时依赖,通过 stdio 传输运行

  • 提供商抽象 —— 针对图像、视频、音频和模型操作的后端无关接口

  • 双后端支持 —— 同时支持 Gemini API(API 密钥)和 Vertex AI(项目凭据)

快速开始

# Install
go install github.com/mordor-forge/gemini-media-mcp/cmd/gemini-media-mcp@latest

# Configure (Gemini API; either variable name works)
export GEMINI_API_KEY="your-api-key"
# export GOOGLE_API_KEY="your-api-key"

# Or configure (Vertex AI)
export GOOGLE_CLOUD_PROJECT="your-project-id"
export GOOGLE_CLOUD_LOCATION="us-central1"

# Run directly (stdio transport)
gemini-media-mcp

然后将其添加到您的 MCP 客户端 —— 请参阅下方的 MCP 客户端配置

配置

变量

必需

默认值

描述

GOOGLE_API_KEY

是*

--

Gemini API 密钥。也接受 GEMINI_API_KEY

GOOGLE_CLOUD_PROJECT

是*

--

用于 Vertex AI 后端的 GCP 项目 ID

GOOGLE_CLOUD_LOCATION

us-central1

Vertex AI 的 GCP 区域

MEDIA_OUTPUT_DIR

~/generated_media

保存媒体文件的目录

*必须设置 GOOGLE_API_KEYGOOGLE_CLOUD_PROJECT 中的一个。如果两者都设置了,API 密钥优先(避免在 shell 中为其他工具设置 GOOGLE_CLOUD_PROJECT 时产生冲突)。

如果您不确定哪个后端处于活动状态,请从您的 MCP 客户端调用 get_config 以确认所选后端和输出目录。

可用工具

工具

描述

类型

generate_image

根据文本提示词生成图像

同步

edit_image

使用文本提示词编辑现有图像

同步

compose_images

多参考图合成(最多 3 张)

同步

generate_video

根据文本提示词生成视频(返回操作 ID)

异步

animate_image

将图像动画化为视频(第一帧)

异步

extend_video

串联视频片段以制作更长内容

异步

video_status

检查视频生成进度

同步

download_video

下载已完成的视频

同步

generate_audio

根据文本生成口语音频 (TTS)

同步

generate_music

根据文本描述生成 AI 音乐 (Lyria)

同步

list_models

显示可用模型及其功能和定价

同步

get_config

显示当前后端和配置

同步

异步工具会立即返回操作 ID。使用 video_status 轮询完成情况,然后使用 download_video 获取文件。

模型层级

图像

层级

模型

适用场景

成本

nb2 (默认)

gemini-3.1-flash-image-preview

快速迭代,大多数任务

~$0.067/张

pro

gemini-3-pro-image-preview

最终渲染,复杂场景

~$0.134/张

两个层级均支持 1K、2K、4K 分辨率以及 1:1、2:3、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9 的宽高比。

视频

层级

模型

适用场景

成本

lite (默认)

veo-3.1-lite-generate-preview

大批量,草稿

$0.05/秒 (720p), $0.08/秒 (1080p)

fast

veo-3.1-fast-generate-preview

高质量迭代

$0.15/秒 (720p/1080p), $0.35/秒 (4k)

standard

veo-3.1-generate-preview

最终渲染,4K

$0.40/秒 (720p/1080p), $0.60/秒 (4k)

支持的宽高比为 16:99:16。支持的时长为 468 秒。Lite 支持 720p1080p。Fast 和 Standard 支持 720p1080p4K。视频扩展 (extend_video) 仅在 Fast 和 Standard 层级可用,且扩展层级必须与原始生成层级匹配。

音频 (TTS)

层级

模型

适用场景

成本

tts

gemini-2.5-flash-preview-tts

具有自然语音的文本转语音

标准 Gemini Token 定价

generate_audio 工具将文本转换为口语音频。它支持:

  • 语音选择 —— 从预设语音中选择,如 AoedeKorePuck 等。默认:Aoede

  • 语言 —— 设置语言代码(例如 en-USit-ITcs-CZde-DE)。默认:en-US

  • 自然语音 —— 生成具有适当节奏和语调的、富有表现力的自然语音

输出保存为原始 PCM 音频(audio/L16,24kHz 采样率)。该文件可以使用 ffplay 等工具播放,或转换为其他格式:

# Play directly
ffplay -f s16le -ar 24000 -ac 1 ~/generated_media/audio-2026-04-02T12-20-12-0603.pcm

# Convert to WAV
ffmpeg -f s16le -ar 24000 -ac 1 -i audio.pcm audio.wav

# Convert to MP3
ffmpeg -f s16le -ar 24000 -ac 1 -i audio.pcm audio.mp3

音乐 (Lyria)

层级

模型

输出

适用场景

成本

clip (默认)

lyria-3-clip-preview

30 秒片段

快速迭代,声音设计

~$0.08/首

full

lyria-3-pro-preview

最长约 3 分钟

带有人声、主歌、副歌的完整歌曲

基于 Token

generate_music 工具根据文本描述创建 AI 生成的音乐。功能包括:

  • 流派和风格 —— 指定任何流派、乐器、BPM、调式/音阶、情绪

  • 结构控制 —— 使用标签,如 [Verse][Chorus][Bridge][Intro][Outro]

  • 自定义歌词 —— 为人声轨道包含带有部分标记的歌词

  • 时间戳控制 —— [0:00 - 0:10] Intro: gentle piano... 用于精确的部分计时

  • 多语言 —— 提示词语言决定输出语言

  • 高保真 —— 48kHz 立体声 MP3 输出

所有生成的音乐都带有 SynthID 水印。

提示词示例:

# Instrumental
"A gentle acoustic guitar melody in C major, 90 BPM, calm and peaceful indie folk"

# With structure
"[Intro] Ambient synth pad, ethereal
[Verse] Lo-fi hip-hop beat, mellow piano chords, vinyl crackle
[Chorus] Uplifting, add strings and gentle drums
[Outro] Fade out with reverb"

# With lyrics
"Upbeat pop song, 120 BPM, major key
[Chorus] We're dancing in the light / Everything feels right / Under stars so bright tonight"

您可以直接传递层级名称(litefaststandardnb2prottsclipfull)或原始模型 ID。

MCP 客户端配置

Claude Code

添加到您的 Claude Code MCP 设置(~/.claude/settings.json 或项目 .mcp.json):

{
  "mcpServers": {
    "gemini-media": {
      "command": "gemini-media-mcp",
      "env": {
        "GOOGLE_API_KEY": "your-api-key",
        "MEDIA_OUTPUT_DIR": "/path/to/output"
      }
    }
  }
}

在上面的 env 块中使用 GOOGLE_API_KEYGEMINI_API_KEY;两者均可接受。

或者,如果是从源码构建:

{
  "mcpServers": {
    "gemini-media": {
      "command": "/path/to/gemini-media-mcp",
      "env": {
        "GOOGLE_API_KEY": "your-api-key"
      }
    }
  }
}

Claude Code 的配套技能

skills/ 目录包含 Claude Code 技能,这些技能在 MCP 工具之上提供了交互式工作流。每项技能都会引导 Claude 完成特定媒体类型的提示词工程、模型选择和迭代优化。

技能

目录

描述

gemini-image-gen

skills/gemini-image-gen/

图像生成、编辑和多参考图合成

video-gen

skills/video-gen/

带有异步轮询、图生视频、扩展功能的视频生成

music-gen

skills/music-gen/

带有结构标签、歌词、流派控制的音乐生成

tts-gen

skills/tts-gen/

带有语音和语言选择的文本转语音

要安装技能,请将其目录复制到 ~/.claude/skills/

cp -r skills/video-gen ~/.claude/skills/
cp -r skills/music-gen ~/.claude/skills/
cp -r skills/tts-gen ~/.claude/skills/
cp -r skills/gemini-image-gen ~/.claude/skills/

技能是可选的 —— MCP 工具无需它们即可工作。但技能增加了提示词工程指导、模型层级建议和交互式审查工作流,可显著提高输出质量。

从源码构建

git clone https://github.com/mordor-forge/gemini-media-mcp.git
cd gemini-media-mcp
go build ./cmd/gemini-media-mcp/

二进制文件将在 ./gemini-media-mcp 创建。

运行测试:

go test ./...

贡献

  1. Fork 仓库

  2. 创建功能分支 (git checkout -b feature/your-feature)

  3. 进行更改并添加测试

  4. 运行 go test ./...go vet ./...

  5. 提交更改

  6. 针对 main 分支发起 Pull Request

许可证

Apache-2.0

Install Server
A
security – no known vulnerabilities
A
license - permissive license
A
quality - A tier

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/mordor-forge/gemini-media-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server