gemini-media-mcp

License

Унифицированный MCP-сервер на Go для генерации медиаконтента с помощью Google Gemini API и Vertex AI.

Возможности

Генерация изображений — преобразование текста в изображение с настраиваемым соотношением сторон и разрешением (1K/2K/4K)
Редактирование изображений — изменение существующих изображений с помощью текстовых запросов
Композиция с несколькими референсами — объединение до 3 референсных изображений с учетом стиля/содержания
Генерация видео — преобразование текста в видео с использованием уровней Veo 3.1 Lite, Fast и Standard
Преобразование изображения в видео — анимация статичных изображений в видеоклипы
Расширение видео — объединение клипов для создания более длинного контента (уровни Fast и Standard)
Преобразование текста в речь (TTS) — генерация озвученного аудио с настраиваемыми голосами и языками
Генерация музыки — ИИ-музыка через Lyria 3 (30-секундные клипы или полноценные песни с вокалом и контролем структуры)
Единый бинарный файл — отсутствие зависимостей среды выполнения, работает через транспорт stdio
Абстракция провайдера — независимые от бэкенда интерфейсы для операций с изображениями, видео, аудио и моделями
Двойной бэкенд — поддержка как Gemini API (API-ключ), так и Vertex AI (учетные данные проекта)

Быстрый старт

# Install
go install github.com/mordor-forge/gemini-media-mcp/cmd/gemini-media-mcp@latest

# Configure (Gemini API; either variable name works)
export GEMINI_API_KEY="your-api-key"
# export GOOGLE_API_KEY="your-api-key"

# Or configure (Vertex AI)
export GOOGLE_CLOUD_PROJECT="your-project-id"
export GOOGLE_CLOUD_LOCATION="us-central1"

# Run directly (stdio transport)
gemini-media-mcp

Затем добавьте его в свой MCP-клиент — см. Конфигурация MCP-клиента ниже.

Конфигурация

Переменная	Обязательно	По умолчанию	Описание
`GOOGLE_API_KEY`	Да*	--	API-ключ Gemini. Также принимается `GEMINI_API_KEY`
`GOOGLE_CLOUD_PROJECT`	Да*	--	ID проекта GCP для бэкенда Vertex AI
`GOOGLE_CLOUD_LOCATION`	Нет	`us-central1`	Регион GCP для Vertex AI
`MEDIA_OUTPUT_DIR`	Нет	`~/generated_media`	Директория для сохраненных медиафайлов

*Необходимо задать либо GOOGLE_API_KEY, либо GOOGLE_CLOUD_PROJECT. Если заданы оба, приоритет имеет API-ключ (это позволяет избежать конфликтов, когда GOOGLE_CLOUD_PROJECT задан в оболочке для других инструментов).

Если вы не уверены, какой бэкенд активен, вызовите get_config из вашего MCP-клиента, чтобы подтвердить выбранный бэкенд и директорию вывода.

Доступные инструменты

Инструмент	Описание	Тип
`generate_image`	Генерация изображения по текстовому запросу	Синхр.
`edit_image`	Редактирование существующего изображения по текстовому запросу	Синхр.
`compose_images`	Композиция изображения с несколькими референсами (до 3)	Синхр.
`generate_video`	Генерация видео по текстовому запросу (возвращает ID операции)	Асинхр.
`animate_image`	Анимация изображения в видео (первый кадр)	Асинхр.
`extend_video`	Объединение видеоклипов для более длинного контента	Асинхр.
`video_status`	Проверка прогресса генерации видео	Синхр.
`download_video`	Скачивание готового видео	Синхр.
`generate_audio`	Генерация озвученного аудио из текста (TTS)	Синхр.
`generate_music`	Генерация ИИ-музыки по текстовому описанию (Lyria)	Синхр.
`list_models`	Показать доступные модели с возможностями и ценами	Синхр.
`get_config`	Показать текущий бэкенд и конфигурацию	Синхр.

Асинхронные инструменты немедленно возвращают ID операции. Используйте video_status для опроса о завершении, а затем download_video для получения файла.

Уровни моделей

Изображения

Уровень	Модель	Лучше всего подходит для	Стоимость
nb2 (по умолч.)	`gemini-3.1-flash-image-preview`	Быстрые итерации, большинство задач	~$0.067/изобр.
pro	`gemini-3-pro-image-preview`	Финальный рендеринг, сложные сцены	~$0.134/изобр.

Оба уровня поддерживают разрешения 1K, 2K, 4K и соотношения сторон 1:1, 2:3, 3:2, 3:4, 4:3, 4:5, 5:4, 9:16, 16:9, 21:9.

Видео

Уровень	Модель	Лучше всего подходит для	Стоимость
lite (по умолч.)	`veo-3.1-lite-generate-preview`	Большие объемы, черновики	$0.05/сек (720p), $0.08/сек (1080p)
fast	`veo-3.1-fast-generate-preview`	Итерации хорошего качества	$0.15/сек (720p/1080p), $0.35/сек (4k)
standard	`veo-3.1-generate-preview`	Финальный рендеринг, 4K	$0.40/сек (720p/1080p), $0.60/сек (4k)

Поддерживаемые соотношения сторон: 16:9 и 9:16. Поддерживаемая длительность: 4, 6 и 8 секунд. Lite поддерживает 720p и 1080p. Fast и Standard поддерживают 720p, 1080p и 4K. Расширение видео (extend_video) доступно только на уровнях Fast и Standard, при этом уровень расширения должен совпадать с исходной генерацией.

Аудио (TTS)

Уровень	Модель	Лучше всего подходит для	Стоимость
tts	`gemini-2.5-flash-preview-tts`	Текст в речь с естественными голосами	Стандартная тарификация токенов Gemini

Инструмент generate_audio преобразует текст в озвученное аудио. Он поддерживает:

Выбор голоса — Выбирайте из предустановленных голосов, таких как Aoede, Kore, Puck и других. По умолчанию: Aoede
Язык — Установите код языка (например, en-US, it-IT, cs-CZ, de-DE). По умолчанию: en-US
Естественная речь — Генерирует выразительную, естественно звучащую речь с соответствующим темпом и интонацией

Вывод сохраняется как необработанное PCM-аудио (audio/L16, частота дискретизации 24 кГц). Файл можно воспроизвести с помощью таких инструментов, как ffplay, или конвертировать в другие форматы:

# Play directly
ffplay -f s16le -ar 24000 -ac 1 ~/generated_media/audio-2026-04-02T12-20-12-0603.pcm

# Convert to WAV
ffmpeg -f s16le -ar 24000 -ac 1 -i audio.pcm audio.wav

# Convert to MP3
ffmpeg -f s16le -ar 24000 -ac 1 -i audio.pcm audio.mp3

Музыка (Lyria)

Уровень	Модель	Вывод	Лучше всего подходит для	Стоимость
clip (по умолч.)	`lyria-3-clip-preview`	30-секундные клипы	Быстрые итерации, саунд-дизайн	~$0.08/песня
full	`lyria-3-pro-preview`	До ~3 минут	Полноценные песни с вокалом, куплетами, припевами	На основе токенов

Инструмент generate_music создает ИИ-музыку по текстовым описаниям. Возможности включают:

Жанр и стиль — укажите любой жанр, инструменты, BPM, тональность/гамму, настроение
Контроль структуры — используйте теги, такие как [Verse], [Chorus], [Bridge], [Intro], [Outro]
Пользовательские тексты — включите текст песни с маркерами секций для вокальных треков
Контроль временных меток — [0:00 - 0:10] Intro: gentle piano... для точного тайминга секций
Мультиязычность — язык запроса определяет язык вывода
Высокая точность — вывод в формате 48 кГц стерео MP3

Вся сгенерированная музыка снабжена водяным знаком SynthID.

Примеры запросов:

# Instrumental
"A gentle acoustic guitar melody in C major, 90 BPM, calm and peaceful indie folk"

# With structure
"[Intro] Ambient synth pad, ethereal
[Verse] Lo-fi hip-hop beat, mellow piano chords, vinyl crackle
[Chorus] Uplifting, add strings and gentle drums
[Outro] Fade out with reverb"

# With lyrics
"Upbeat pop song, 120 BPM, major key
[Chorus] We're dancing in the light / Everything feels right / Under stars so bright tonight"

Вы можете передать имя уровня (lite, fast, standard, nb2, pro, tts, clip, full) или непосредственно ID модели.

Конфигурация MCP-клиента

Claude Code

Добавьте в настройки MCP Claude Code (~/.claude/settings.json или проектный .mcp.json):

{
  "mcpServers": {
    "gemini-media": {
      "command": "gemini-media-mcp",
      "env": {
        "GOOGLE_API_KEY": "your-api-key",
        "MEDIA_OUTPUT_DIR": "/path/to/output"
      }
    }
  }
}

Используйте либо GOOGLE_API_KEY, либо GEMINI_API_KEY в блоке env выше; принимаются оба варианта.

Или, если собираете из исходного кода:

{
  "mcpServers": {
    "gemini-media": {
      "command": "/path/to/gemini-media-mcp",
      "env": {
        "GOOGLE_API_KEY": "your-api-key"
      }
    }
  }
}

Сопутствующие навыки для Claude Code

Директория skills/ содержит навыки Claude Code, которые предоставляют интерактивные рабочие процессы поверх инструментов MCP. Каждый навык направляет Claude через проектирование промптов, выбор модели и итеративное уточнение для конкретного типа медиа.

Навык	Директория	Описание
gemini-image-gen	`skills/gemini-image-gen/`	Генерация изображений, редактирование и композиция с несколькими референсами
video-gen	`skills/video-gen/`	Генерация видео с асинхронным опросом, преобразование изображения в видео, расширение
music-gen	`skills/music-gen/`	Генерация музыки с тегами структуры, текстами, контролем жанра
tts-gen	`skills/tts-gen/`	Текст в речь с выбором голоса и языка

Чтобы установить навык, скопируйте его директорию в ~/.claude/skills/:

cp -r skills/video-gen ~/.claude/skills/
cp -r skills/music-gen ~/.claude/skills/
cp -r skills/tts-gen ~/.claude/skills/
cp -r skills/gemini-image-gen ~/.claude/skills/

Навыки необязательны — инструменты MCP работают и без них. Но навыки добавляют руководство по проектированию промптов, рекомендации по уровням моделей и интерактивные рабочие процессы проверки, которые значительно улучшают качество вывода.

Сборка из исходного кода

git clone https://github.com/mordor-forge/gemini-media-mcp.git
cd gemini-media-mcp
go build ./cmd/gemini-media-mcp/

Бинарный файл будет создан в ./gemini-media-mcp.

Для запуска тестов:

go test ./...

Вклад в проект

Сделайте форк репозитория
Создайте ветку для функции (git checkout -b feature/your-feature)
Внесите изменения и добавьте тесты
Запустите go test ./... и go vet ./...
Закоммитьте изменения
Откройте pull request в ветку main

Лицензия

Apache-2.0

gemini-media-mcp

gemini-media-mcp

Возможности

Быстрый старт

Конфигурация

Доступные инструменты

Уровни моделей

Изображения

Видео

Аудио (TTS)

Музыка (Lyria)

Конфигурация MCP-клиента

Claude Code

Сопутствующие навыки для Claude Code

Сборка из исходного кода

Вклад в проект

Лицензия

Resources

Tools

Latest Blog Posts

MCP directory API