Provides Docker Compose setup for easily running the required VOICEVOX engine locally.
The MCP server is implemented in TypeScript for type safety and developer experience.
Uses Zod for runtime schema validation within the MCP server implementation.
voicevox-mcp
このプロジェクトは、VOICEVOXエンジンと連携して音声合成やスピーカー情報の取得ができるMCP(Model Context Protocol)サーバーです。TypeScriptで実装されており、MCP SDKを利用しています。
機能
- VOICEVOXエンジンのスピーカー情報取得(/speakers)
- 指定したスピーカーでテキストを音声合成し、ローカルで再生(/speak)
- Macのみ対応
セットアップ
VOICEVOXエンジンの起動(Docker推奨)
これで localhost:50021 でVOICEVOXエンジンが起動します。
依存パッケージのインストール & ビルド
使い方
Cursorの設定例
VOICEVOX_API_URLは必要に応じて設定
- MCPクライアントから speakers ツールでスピーカー一覧を取得できます。
- speak ツールでテキストを音声合成し、ローカルで再生できます(afplayコマンドを使用しているため、Mac環境推奨)。
主な依存パッケージ
@modelcontextprotocol/sdk
zod
typescript
注意事項
- 今後改善
- VOICEVOXエンジンが localhost:50021 で動作していないと音声合成は利用できません。
- Mac以外の環境では afplay の部分を適宜変更してください。
ライセンス
MIT License
You must be authenticated.
local-only server
The server can only run on the client's local machine because it depends on local resources.
A Model Context Protocol server that integrates with VOICEVOX engine to provide text-to-speech synthesis and speaker information retrieval, allowing users to generate and play voice audio from text.
Related Resources
Related MCP Servers
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -2Python
- -securityFlicense-qualityA Model Context Protocol server that provides text-to-speech capabilities using the Kokoro TTS model, offering multiple voice options and customizable speech parameters.Last updated -239JavaScript
- -securityAlicense-qualityA Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.Last updated -TypeScriptMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.Last updated -11764JavaScriptThe Unlicense