MS-Lucidia-Voice-Gateway-MCP
Windows の組み込み音声サービスを使用して、テキスト読み上げ機能と音声テキスト変換機能を提供するモデルコンテキストプロトコル (MCP) サーバーです。このサーバーは、PowerShell コマンドを通じてネイティブの Windows Speech API (SAPI) を活用するため、外部 API やサービスは必要ありません。
特徴
Windows SAPI 音声を使用したテキスト読み上げ (TTS)
Windows 音声認識を使用した音声テキスト変換 (STT)
テスト用のシンプルなWebインターフェース
外部APIへの依存なし
ネイティブのWindows機能を使用する
前提条件
音声認識が有効になっているWindows 10/11
Node.js 16以上
パワーシェル
インストール
リポジトリをクローンします。
依存関係をインストールします:
プロジェクトをビルドします。
使用法
テストインターフェース
テスト サーバーを起動します。
ブラウザで
http://localhost:3000
を開きます。Webインターフェースを使用してTTSおよびSTT機能をテストする
利用可能なツール
テキスト読み上げ
Windows SAPI を使用してテキストを音声に変換します。
パラメータ:
text
(必須): 音声に変換するテキストvoice
(オプション): 使用する音声 (例: "Microsoft David Desktop")speed
(オプション):0.5~2.0の音声速度(デフォルト:1.0)
例:
音声テキスト変換
Windows 音声認識を使用して音声を録音し、テキストに変換します。
パラメータ:
duration
(オプション):録画時間(秒)(デフォルト:5、最大:60)
例:
トラブルシューティング
Windows 音声認識が有効になっていることを確認します。
Windowsの設定を開く
「時間と言語」>「スピーチ」へ移動
音声認識を有効にする
利用可能な音声を確認してください:
PowerShellを開いて実行: GXP7
音声認識をテストする:
Windows設定で音声認識を開く
まだ実行していない場合はセットアップウィザードを実行します
Windowsがあなたの声を認識できるかテストする
貢献
リポジトリをフォークする
機能ブランチを作成する
変更をコミットする
ブランチにプッシュする
新しいプルリクエストを作成する
ライセンス
マサチューセッツ工科大学
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
外部依存なしで Windows のネイティブ音声サービスを使用して、テキスト読み上げ機能および音声テキスト変換機能を提供するサーバー。
Related Resources
Related MCP Servers
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -10
Gladia MCPofficial
-securityAlicense-qualityOfficial Model Context Protocol server that enables interaction with powerful Speech-to-Text and Audio Intelligence APIs, allowing clients like Claude Desktop to transcribe audio, analyze speech, translate content, and more.- -securityFlicense-qualityA Model Context Protocol server that provides text-to-speech functionality for AI agents using Microsoft Edge's text-to-speech technology, supporting multiple voices, languages, and voice customization.Last updated -5
- AsecurityAlicenseAqualityA Model Context Protocol server that integrates with VOICEVOX engine to provide text-to-speech synthesis and speaker information retrieval, allowing users to generate and play voice audio from text.Last updated -2MIT License