gemini-media-mcp
gemini-media-mcp
Унифицированный MCP-сервер на Go для генерации медиаконтента с помощью Google Gemini API и Vertex AI.
Возможности
Генерация изображений — преобразование текста в изображение с настраиваемым соотношением сторон и разрешением (1K/2K/4K)
Редактирование изображений — изменение существующих изображений с помощью текстовых запросов
Композиция с несколькими референсами — объединение до 3 референсных изображений с учетом стиля/содержания
Генерация видео — преобразование текста в видео с использованием уровней Veo 3.1 Lite, Fast и Standard
Преобразование изображения в видео — анимация статичных изображений в видеоклипы
Расширение видео — объединение клипов для создания более длинного контента (уровни Fast и Standard)
Преобразование текста в речь (TTS) — генерация озвученного аудио с настраиваемыми голосами и языками
Генерация музыки — ИИ-музыка через Lyria 3 (30-секундные клипы или полноценные песни с вокалом и контролем структуры)
Единый бинарный файл — отсутствие зависимостей среды выполнения, работает через транспорт stdio
Абстракция провайдера — независимые от бэкенда интерфейсы для операций с изображениями, видео, аудио и моделями
Двойной бэкенд — поддержка как Gemini API (API-ключ), так и Vertex AI (учетные данные проекта)
Быстрый старт
# Install
go install github.com/mordor-forge/gemini-media-mcp/cmd/gemini-media-mcp@latest
# Configure (Gemini API; either variable name works)
export GEMINI_API_KEY="your-api-key"
# export GOOGLE_API_KEY="your-api-key"
# Or configure (Vertex AI)
export GOOGLE_CLOUD_PROJECT="your-project-id"
export GOOGLE_CLOUD_LOCATION="us-central1"
# Run directly (stdio transport)
gemini-media-mcpЗатем добавьте его в свой MCP-клиент — см. Конфигурация MCP-клиента ниже.
Конфигурация
Переменная | Обязательно | По умолчанию | Описание |
| Да* | -- | API-ключ Gemini. Также принимается |
| Да* | -- | ID проекта GCP для бэкенда Vertex AI |
| Нет |
| Регион GCP для Vertex AI |
| Нет |
| Директория для сохраненных медиафайлов |
*Необходимо задать либо GOOGLE_API_KEY, либо GOOGLE_CLOUD_PROJECT. Если заданы оба, приоритет имеет API-ключ (это позволяет избежать конфликтов, когда GOOGLE_CLOUD_PROJECT задан в оболочке для других инструментов).
Если вы не уверены, какой бэкенд активен, вызовите get_config из вашего MCP-клиента, чтобы подтвердить выбранный бэкенд и директорию вывода.
Доступные инструменты
Инструмент | Описание | Тип |
| Генерация изображения по текстовому запросу | Синхр. |
| Редактирование существующего изображения по текстовому запросу | Синхр. |
| Композиция изображения с несколькими референсами (до 3) | Синхр. |
| Генерация видео по текстовому запросу (возвращает ID операции) | Асинхр. |
| Анимация изображения в видео (первый кадр) | Асинхр. |
| Объединение видеоклипов для более длинного контента | Асинхр. |
| Проверка прогресса генерации видео | Синхр. |
| Скачивание готового видео | Синхр. |
| Генерация озвученного аудио из текста (TTS) | Синхр. |
| Генерация ИИ-музыки по текстовому описанию (Lyria) | Синхр. |
| Показать доступные модели с возможностями и ценами | Синхр. |
| Показать текущий бэкенд и конфигурацию | Синхр. |
Асинхронные инструменты немедленно возвращают ID операции. Используйте video_status для опроса о завершении, а затем download_video для получения файла.
Уровни моделей
Изображения
Уровень | Модель | Лучше всего подходит для | Стоимость |
nb2 (по умолч.) |
| Быстрые итерации, большинство задач | ~$0.067/изобр. |
pro |
| Финальный рендеринг, сложные сцены | ~$0.134/изобр. |
Оба уровня поддерживают разрешения 1K, 2K, 4K и соотношения сторон 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9.
Видео
Уровень | Модель | Лучше всего подходит для | Стоимость |
lite (по умолч.) |
| Большие объемы, черновики | $0.05/сек (720p), $0.08/сек (1080p) |
fast |
| Итерации хорошего качества | $0.15/сек (720p/1080p), $0.35/сек (4k) |
standard |
| Финальный рендеринг, 4K | $0.40/сек (720p/1080p), $0.60/сек (4k) |
Поддерживаемые соотношения сторон: 16:9 и 9:16. Поддерживаемая длительность: 4, 6 и 8 секунд. Lite поддерживает 720p и 1080p. Fast и Standard поддерживают 720p, 1080p и 4K. Расширение видео (extend_video) доступно только на уровнях Fast и Standard, при этом уровень расширения должен совпадать с исходной генерацией.
Аудио (TTS)
Уровень | Модель | Лучше всего подходит для | Стоимость |
tts |
| Текст в речь с естественными голосами | Стандартная тарификация токенов Gemini |
Инструмент generate_audio преобразует текст в озвученное аудио. Он поддерживает:
Выбор голоса — Выбирайте из предустановленных голосов, таких как
Aoede,Kore,Puckи других. По умолчанию:AoedeЯзык — Установите код языка (например,
en-US,it-IT,cs-CZ,de-DE). По умолчанию:en-USЕстественная речь — Генерирует выразительную, естественно звучащую речь с соответствующим темпом и интонацией
Вывод сохраняется как необработанное PCM-аудио (audio/L16, частота дискретизации 24 кГц). Файл можно воспроизвести с помощью таких инструментов, как ffplay, или конвертировать в другие форматы:
# Play directly
ffplay -f s16le -ar 24000 -ac 1 ~/generated_media/audio-2026-04-02T12-20-12-0603.pcm
# Convert to WAV
ffmpeg -f s16le -ar 24000 -ac 1 -i audio.pcm audio.wav
# Convert to MP3
ffmpeg -f s16le -ar 24000 -ac 1 -i audio.pcm audio.mp3Музыка (Lyria)
Уровень | Модель | Вывод | Лучше всего подходит для | Стоимость |
clip (по умолч.) |
| 30-секундные клипы | Быстрые итерации, саунд-дизайн | ~$0.08/песня |
full |
| До ~3 минут | Полноценные песни с вокалом, куплетами, припевами | На основе токенов |
Инструмент generate_music создает ИИ-музыку по текстовым описаниям. Возможности включают:
Жанр и стиль — укажите любой жанр, инструменты, BPM, тональность/гамму, настроение
Контроль структуры — используйте теги, такие как
[Verse],[Chorus],[Bridge],[Intro],[Outro]Пользовательские тексты — включите текст песни с маркерами секций для вокальных треков
Контроль временных меток —
[0:00 - 0:10] Intro: gentle piano...для точного тайминга секцийМультиязычность — язык запроса определяет язык вывода
Высокая точность — вывод в формате 48 кГц стерео MP3
Вся сгенерированная музыка снабжена водяным знаком SynthID.
Примеры запросов:
# Instrumental
"A gentle acoustic guitar melody in C major, 90 BPM, calm and peaceful indie folk"
# With structure
"[Intro] Ambient synth pad, ethereal
[Verse] Lo-fi hip-hop beat, mellow piano chords, vinyl crackle
[Chorus] Uplifting, add strings and gentle drums
[Outro] Fade out with reverb"
# With lyrics
"Upbeat pop song, 120 BPM, major key
[Chorus] We're dancing in the light / Everything feels right / Under stars so bright tonight"Вы можете передать имя уровня (lite, fast, standard, nb2, pro, tts, clip, full) или непосредственно ID модели.
Конфигурация MCP-клиента
Claude Code
Добавьте в настройки MCP Claude Code (~/.claude/settings.json или проектный .mcp.json):
{
"mcpServers": {
"gemini-media": {
"command": "gemini-media-mcp",
"env": {
"GOOGLE_API_KEY": "your-api-key",
"MEDIA_OUTPUT_DIR": "/path/to/output"
}
}
}
}Используйте либо GOOGLE_API_KEY, либо GEMINI_API_KEY в блоке env выше; принимаются оба варианта.
Или, если собираете из исходного кода:
{
"mcpServers": {
"gemini-media": {
"command": "/path/to/gemini-media-mcp",
"env": {
"GOOGLE_API_KEY": "your-api-key"
}
}
}
}Сопутствующие навыки для Claude Code
Директория skills/ содержит навыки Claude Code, которые предоставляют интерактивные рабочие процессы поверх инструментов MCP. Каждый навык направляет Claude через проектирование промптов, выбор модели и итеративное уточнение для конкретного типа медиа.
Навык | Директория | Описание |
gemini-image-gen |
| Генерация изображений, редактирование и композиция с несколькими референсами |
video-gen |
| Генерация видео с асинхронным опросом, преобразование изображения в видео, расширение |
music-gen |
| Генерация музыки с тегами структуры, текстами, контролем жанра |
tts-gen |
| Текст в речь с выбором голоса и языка |
Чтобы установить навык, скопируйте его директорию в ~/.claude/skills/:
cp -r skills/video-gen ~/.claude/skills/
cp -r skills/music-gen ~/.claude/skills/
cp -r skills/tts-gen ~/.claude/skills/
cp -r skills/gemini-image-gen ~/.claude/skills/Навыки необязательны — инструменты MCP работают и без них. Но навыки добавляют руководство по проектированию промптов, рекомендации по уровням моделей и интерактивные рабочие процессы проверки, которые значительно улучшают качество вывода.
Сборка из исходного кода
git clone https://github.com/mordor-forge/gemini-media-mcp.git
cd gemini-media-mcp
go build ./cmd/gemini-media-mcp/Бинарный файл будет создан в ./gemini-media-mcp.
Для запуска тестов:
go test ./...Вклад в проект
Сделайте форк репозитория
Создайте ветку для функции (
git checkout -b feature/your-feature)Внесите изменения и добавьте тесты
Запустите
go test ./...иgo vet ./...Закоммитьте изменения
Откройте pull request в ветку
main
Лицензия
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/mordor-forge/gemini-media-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server