tts-mcp
Un servidor de Protocolo de Contexto de Modelo (MCP) y una herramienta de línea de comandos para la generación de texto a voz de alta calidad utilizando la API TTS de OpenAI.
Características principales
Servidor MCP : integre capacidades de texto a voz con Claude Desktop y otros clientes compatibles con MCP
Opciones de voz : Soporte para múltiples personajes de voz (alloy, nova, echo, etc.)
Audio de alta calidad : Compatibilidad con varios formatos de salida (MP3, WAV, OPUS, AAC)
Personalizable : configure la velocidad del habla, el carácter de la voz y las instrucciones adicionales
Herramienta CLI : También disponible como utilidad de línea de comandos para la conversión directa de texto a voz
Related MCP server: MCP Memory Server
Instalación
Método 1: Instalar desde el repositorio
# Clone the repository
git clone https://github.com/nakamurau1/tts-mcp.git
cd tts-mcp
# Install dependencies
npm install
# Optional: Install globally
npm install -g .Método 2: Ejecutar directamente con npx (no requiere instalación)
# Start the MCP server directly
npx tts-mcp tts-mcp-server --voice nova --model tts-1-hd
# Use the CLI tool directly
npx tts-mcp -t "Hello, world" -o hello.mp3Uso del servidor MCP
El servidor MCP le permite integrar la funcionalidad de texto a voz con clientes compatibles con el Protocolo de contexto de modelo (MCP) como Claude Desktop.
Iniciar el servidor MCP
# Start with default settings
npm run server
# Start with custom settings
npm run server -- --voice nova --model tts-1-hd
# Or directly with API key
node bin/tts-mcp-server.js --voice echo --api-key your-openai-api-keyOpciones del servidor MCP
Options:
-V, --version Display version information
-m, --model <model> TTS model to use (default: "gpt-4o-mini-tts")
-v, --voice <voice> Voice character (default: "alloy")
-f, --format <format> Audio format (default: "mp3")
--api-key <key> OpenAI API key (can also be set via environment variable)
-h, --help Display help informationIntegración con clientes MCP
El servidor MCP se puede utilizar con Claude Desktop y otros clientes compatibles con MCP. Para la integración con Claude Desktop:
Abra el archivo de configuración de Claude Desktop (normalmente en
~/Library/Application Support/Claude/claude_desktop_config.json)Agregue la siguiente configuración, incluida su clave API de OpenAI:
{
"mcpServers": {
"tts-mcp": {
"command": "node",
"args": ["full/path/to/bin/tts-mcp-server.js", "--voice", "nova", "--api-key", "your-openai-api-key"],
"env": {
"OPENAI_API_KEY": "your-openai-api-key"
}
}
}
}Alternativamente, puede utilizar npx para una configuración más sencilla:
{
"mcpServers": {
"tts-mcp": {
"command": "npx",
"args": ["-p", "tts-mcp", "tts-mcp-server", "--voice", "nova", "--model", "gpt-4o-mini-tts"],
"env": {
"OPENAI_API_KEY": "your-openai-api-key"
}
}
}
}Puede proporcionar la clave API de dos maneras:
Método directo (recomendado para pruebas): Inclúyalo en la matriz
argsusando el parámetro--api-keyMétodo de variable de entorno (más seguro): configúrelo en el objeto
envcomo se muestra arriba
Nota de seguridad : asegúrese de proteger su archivo de configuración al incluir claves API.
Reiniciar Claude Desktop
Cuando le pides a Claude que "lea este texto en voz alta" o solicitudes similares, el texto se convertirá en voz.
Herramientas MCP disponibles
texto a voz : herramienta para convertir texto a voz y reproducirlo
Uso de la herramienta CLI
También puede utilizar tts-mcp como una herramienta de línea de comandos independiente:
# Convert text directly
tts-mcp -t "Hello, world" -o hello.mp3
# Convert from a text file
tts-mcp -f speech.txt -o speech.mp3
# Specify custom voice
tts-mcp -t "Welcome to the future" -o welcome.mp3 -v novaOpciones de la herramienta CLI
Options:
-V, --version Display version information
-t, --text <text> Text to convert
-f, --file <path> Path to input text file
-o, --output <path> Path to output audio file (required)
-m, --model <n> Model to use (default: "gpt-4o-mini-tts")
-v, --voice <n> Voice character (default: "alloy")
-s, --speed <number> Speech speed (0.25-4.0) (default: 1)
--format <format> Output format (default: "mp3")
-i, --instructions <text> Additional instructions for speech generation
--api-key <key> OpenAI API key (can also be set via environment variable)
-h, --help Display help informationVoces compatibles
Se admiten los siguientes caracteres de voz:
aleación (predeterminado)
ceniza
coral
eco
fábula
ónix
estrella nueva
sabio
brillar
Modelos compatibles
tts-1
tts-1-hd
gpt-4o-mini-tts (predeterminado)
Formatos de salida
Se admiten los siguientes formatos de salida:
mp3 (predeterminado)
opus
aac
flac
onda
PCM
Variables de entorno
También puede configurar la herramienta utilizando variables de entorno del sistema:
OPENAI_API_KEY=your-api-key-hereLicencia
Instituto Tecnológico de Massachusetts (MIT)
This server cannot be installed
Resources
Looking for Admin?
Admins can modify the Dockerfile, update the server description, and track usage metrics. If you are the server author, to access the admin panel.