AivisSpeech MCP サーバー
AivisSpeech用のModel Context Protocol (MCP) サーバーの実装です。このサーバーは、AivisSpeech Engineと連携して、音声合成のためのインターフェースを提供します。MCPプロトコルを通じて、AIアシスタントなどのアプリケーションからAivisSpeechの音声合成機能を簡単に利用できるようになります。
概要
AivisSpeech MCP サーバーは以下の機能を提供します:
- MCPプロトコルに準拠したAPIエンドポイント
- AivisSpeech Engineとの連携による高品質な音声合成
- TypeScriptによる型安全な設計
- 簡単な設定と拡張性の高いアーキテクチャ
必要条件
- Node.js 18.x以上
- npm 9.x以上
- AivisSpeech Engine(別途インストールが必要)
インストール
環境設定
.env
ファイルで以下の設定を行います:
Cursor MCP設定
.cursor/mcp.json
ファイルで以下の設定を行います:
/path/to/aivis-speech-mcp/dist/index.js
を、実際のプロジェクトのパスに書き換えてください。
Windowsの場合は、バックスラッシュをエスケープするか、フォワードスラッシュを使用してください。
例: "C:/Users/username/path/to/aivis-speech-mcp/dist/index.js"
使い方
開発モード
開発中は以下のコマンドでホットリロード機能付きでサーバーを起動できます:
ビルド
本番環境用にビルドする場合は以下のコマンドを実行します:
本番モード
ビルド後、以下のコマンドで本番モードでサーバーを起動します:
テスト
テストを実行するには以下のコマンドを使用します:
アーキテクチャ
AivisSpeech MCP サーバーは以下のコンポーネントで構成されています:
- MCPサービス: Model Context Protocolに準拠したサーバーを提供し、クライアントからのリクエストを処理します
- AivisSpeech サービス: AivisSpeech EngineのAPIと通信し、音声合成を実行します
API仕様
MCPプロトコルに準拠したAPIエンドポイントを提供します。主な機能は以下の通りです:
- 音声合成(テキストから音声を生成)
- スピーカー情報の取得
- 音声スタイルの設定
詳細なAPI仕様についてはAivisSpeech Engine API仕様を参照してください。
MCPプロトコルとの連携
このサーバーは、Model Context Protocol(MCP)を実装しており、AIアシスタントなどのアプリケーションからシームレスに利用できます。MCPプロトコルについての詳細はMCP公式ドキュメントを参照してください。
トラブルシューティング
よくある問題と解決策:
- AivisSpeech Engineに接続できない:
.env
ファイルのAIVIS_SPEECH_API_URL
が正しく設定されているか確認してください - 音声が再生されない: システムの音声設定を確認し、適切なオーディオデバイスが選択されているか確認してください
- スピーカーIDが見つからない: AivisSpeech Engineが正しく起動しているか確認し、利用可能なスピーカーIDを確認してください
貢献
バグ報告や機能リクエストは、GitHubのIssueトラッカーを通じてお願いします。プルリクエストも歓迎します。
ライセンス
謝辞
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
A Model Context Protocol server that enables AI assistants to utilize AivisSpeech Engine's high-quality voice synthesis capabilities through a standardized API interface.
Related MCP Servers
- -securityAlicense-qualityA server that enables Claude 3.7 and other AI agents to access VOICEVOX-compatible speech synthesis engines (AivisSpeech, VOICEVOX, COEIROINK) through the Model Context Protocol.Last updated -2TypeScriptMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that enables AI assistants to generate images, text, and audio through the Pollinations APIs without requiring authentication.Last updated -74819JavaScriptMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.Last updated -1154JavaScriptThe Unlicense
- -securityAlicense-qualityA Model Context Protocol server that enables AI assistants like Claude to initiate and manage real-time voice calls using Twilio and OpenAI's voice models.Last updated -14TypeScriptMIT License