Skip to main content
Glama

VOICEVOX MCP Server

Integrations
  • Provides Docker Compose setup for easily running the required VOICEVOX engine locally.

  • The MCP server is implemented in TypeScript for type safety and developer experience.

  • Uses Zod for runtime schema validation within the MCP server implementation.

voicevox-mcp

このプロジェクトは、VOICEVOXエンジンと連携して音声合成やスピーカー情報の取得ができるMCP(Model Context Protocol)サーバーです。TypeScriptで実装されており、MCP SDKを利用しています。

機能

  • VOICEVOXエンジンのスピーカー情報取得(/speakers)
  • 指定したスピーカーでテキストを音声合成し、ローカルで再生(/speak)
    • Macのみ対応

セットアップ

VOICEVOXエンジンの起動(Docker推奨)

docker compose up -d

これで localhost:50021 でVOICEVOXエンジンが起動します。

依存パッケージのインストール & ビルド

npm install npm run build

使い方

Cursorの設定例

{ "mcpServers": { "voicevox-mcp": { "command": "node", "args": ["${Path to Repository}/dist/index.js"], "env": { "SPEAKER_ID": 8, "SPEED_SCALE": 1.2, "VOICEVOX_API_URL": "http://localhost:50021" } } } }

VOICEVOX_API_URLは必要に応じて設定

  • MCPクライアントから speakers ツールでスピーカー一覧を取得できます。
  • speak ツールでテキストを音声合成し、ローカルで再生できます(afplayコマンドを使用しているため、Mac環境推奨)。

主な依存パッケージ

  • @modelcontextprotocol/sdk
  • zod
  • typescript

注意事項

  • 今後改善
    • VOICEVOXエンジンが localhost:50021 で動作していないと音声合成は利用できません。
    • Mac以外の環境では afplay の部分を適宜変更してください。

ライセンス

MIT License

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

local-only server

The server can only run on the client's local machine because it depends on local resources.

A Model Context Protocol server that integrates with VOICEVOX engine to provide text-to-speech synthesis and speaker information retrieval, allowing users to generate and play voice audio from text.

  1. 機能
    1. セットアップ
      1. VOICEVOXエンジンの起動(Docker推奨)
      2. 依存パッケージのインストール & ビルド
    2. 使い方
      1. Cursorの設定例
    3. 注意事項
      1. ライセンス

        Related MCP Servers

        • -
          security
          F
          license
          -
          quality
          Provides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.
          Last updated -
          2
          Python
        • -
          security
          F
          license
          -
          quality
          A Model Context Protocol server that provides text-to-speech capabilities using the Kokoro TTS model, offering multiple voice options and customizable speech parameters.
          Last updated -
          239
          JavaScript
          • Apple
          • Linux
        • -
          security
          A
          license
          -
          quality
          A Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.
          Last updated -
          TypeScript
          MIT License
        • A
          security
          A
          license
          A
          quality
          A Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.
          Last updated -
          1
          176
          4
          JavaScript
          The Unlicense
          • Apple
          • Linux

        View all related MCP servers

        MCP directory API

        We provide all the information about MCP servers via our MCP API.

        curl -X GET 'https://glama.ai/api/mcp/v1/servers/Yuki10Kobayashi/voicevox-mcp'

        If you have feedback or need assistance with the MCP directory API, please join our Discord server