交互式语音 MCP 服务器 (Kokoro TTS + NeMo ASR)
模型上下文协议服务器使用 Kokoro 提供文本转语音 (TTS) 功能,使用 NVIDIA NeMo Parakeet 模型提供语音转文本 (STT) 功能,从而实现交互式语音对话。
可用工具
interactive_voice_dialog- 将文本合成为语音,播放,然后监听用户语音输入并返回转录。必需参数:
text_to_speak(字符串):助手要说的文本。
可选参数:
voice(字符串):用于 TTS 的语音(例如“af_heart”)。默认为“af_heart”。
安装
先决条件
一些底层 TTS 模型需要在您的系统上安装espeak-ng 。
Windows 安装:
点击“最新版本”。
下载适当的
*.msi文件(例如espeak-ng-20191129-b702b03-x64.msi)。运行下载的安装程序。
本地开发安装
要允许 Claude Desktop 使用python -m mcp_server_tts启动此服务器,您需要将其安装为 Python 模块。建议在开发过程中以“可编辑”模式 ( -e ) 安装,因为这意味着对源代码的更改会立即生效,而无需重新安装。
导航到包含pyproject.toml文件的目录(此服务器项目的根目录)并运行:
安装后,您可以使用以下命令将其作为脚本运行:
Related MCP server: Zonos TTS MCP Server
配置
要将此服务器与 Claude Desktop 一起使用,您需要将其添加到claude_desktop_config.json文件中。该文件通常位于: C:\Users\<YourUsername>\AppData\Roaming\Claude\claude_desktop_config.json
在claude_desktop_config.json中的mcpServers对象下添加以下条目:
例如,您的mcpServers部分可能如下所示: