tts-mcp

Un servidor de Protocolo de Contexto de Modelo (MCP) y una herramienta de línea de comandos para la generación de texto a voz de alta calidad utilizando la API TTS de OpenAI.

Características principales

Servidor MCP : integre capacidades de texto a voz con Claude Desktop y otros clientes compatibles con MCP
Opciones de voz : Soporte para múltiples personajes de voz (alloy, nova, echo, etc.)
Audio de alta calidad : Compatibilidad con varios formatos de salida (MP3, WAV, OPUS, AAC)
Personalizable : configure la velocidad del habla, el carácter de la voz y las instrucciones adicionales
Herramienta CLI : También disponible como utilidad de línea de comandos para la conversión directa de texto a voz

Related MCP server: MCP Memory Server

Instalación

Método 1: Instalar desde el repositorio

# Clone the repository
git clone https://github.com/nakamurau1/tts-mcp.git
cd tts-mcp

# Install dependencies
npm install

# Optional: Install globally
npm install -g .

Método 2: Ejecutar directamente con npx (no requiere instalación)

# Start the MCP server directly
npx tts-mcp tts-mcp-server --voice nova --model tts-1-hd

# Use the CLI tool directly
npx tts-mcp -t "Hello, world" -o hello.mp3

Uso del servidor MCP

El servidor MCP le permite integrar la funcionalidad de texto a voz con clientes compatibles con el Protocolo de contexto de modelo (MCP) como Claude Desktop.

Iniciar el servidor MCP

# Start with default settings
npm run server

# Start with custom settings
npm run server -- --voice nova --model tts-1-hd

# Or directly with API key
node bin/tts-mcp-server.js --voice echo --api-key your-openai-api-key

Opciones del servidor MCP

Options:
  -V, --version       Display version information
  -m, --model <model> TTS model to use (default: "gpt-4o-mini-tts")
  -v, --voice <voice> Voice character (default: "alloy")
  -f, --format <format> Audio format (default: "mp3")
  --api-key <key>     OpenAI API key (can also be set via environment variable)
  -h, --help          Display help information

Integración con clientes MCP

El servidor MCP se puede utilizar con Claude Desktop y otros clientes compatibles con MCP. Para la integración con Claude Desktop:

Abra el archivo de configuración de Claude Desktop (normalmente en ~/Library/Application Support/Claude/claude_desktop_config.json )
Agregue la siguiente configuración, incluida su clave API de OpenAI:

{
  "mcpServers": {
    "tts-mcp": {
      "command": "node",
      "args": ["full/path/to/bin/tts-mcp-server.js", "--voice", "nova", "--api-key", "your-openai-api-key"],
      "env": {
        "OPENAI_API_KEY": "your-openai-api-key"
      }
    }
  }
}

Alternativamente, puede utilizar npx para una configuración más sencilla:

{
  "mcpServers": {
    "tts-mcp": {
      "command": "npx",
      "args": ["-p", "tts-mcp", "tts-mcp-server", "--voice", "nova", "--model", "gpt-4o-mini-tts"],
      "env": {
        "OPENAI_API_KEY": "your-openai-api-key"
      }
    }
  }
}

Puede proporcionar la clave API de dos maneras:

Método directo (recomendado para pruebas): Inclúyalo en la matriz args usando el parámetro --api-key
Método de variable de entorno (más seguro): configúrelo en el objeto env como se muestra arriba

Nota de seguridad : asegúrese de proteger su archivo de configuración al incluir claves API.

Reiniciar Claude Desktop
Cuando le pides a Claude que "lea este texto en voz alta" o solicitudes similares, el texto se convertirá en voz.

Herramientas MCP disponibles

texto a voz : herramienta para convertir texto a voz y reproducirlo

Uso de la herramienta CLI

También puede utilizar tts-mcp como una herramienta de línea de comandos independiente:

# Convert text directly
tts-mcp -t "Hello, world" -o hello.mp3

# Convert from a text file
tts-mcp -f speech.txt -o speech.mp3

# Specify custom voice
tts-mcp -t "Welcome to the future" -o welcome.mp3 -v nova

Opciones de la herramienta CLI

Options:
  -V, --version           Display version information
  -t, --text <text>       Text to convert
  -f, --file <path>       Path to input text file
  -o, --output <path>     Path to output audio file (required)
  -m, --model <n>         Model to use (default: "gpt-4o-mini-tts")
  -v, --voice <n>         Voice character (default: "alloy")
  -s, --speed <number>    Speech speed (0.25-4.0) (default: 1)
  --format <format>       Output format (default: "mp3")
  -i, --instructions <text> Additional instructions for speech generation
  --api-key <key>         OpenAI API key (can also be set via environment variable)
  -h, --help              Display help information

Voces compatibles

Se admiten los siguientes caracteres de voz:

aleación (predeterminado)
ceniza
coral
eco
fábula
ónix
estrella nueva
sabio
brillar

Modelos compatibles

tts-1
tts-1-hd
gpt-4o-mini-tts (predeterminado)

Formatos de salida

Se admiten los siguientes formatos de salida:

mp3 (predeterminado)
opus
aac
flac
onda
PCM

Variables de entorno

También puede configurar la herramienta utilizando variables de entorno del sistema:

OPENAI_API_KEY=your-api-key-here

Licencia

Instituto Tecnológico de Massachusetts (MIT)

TTS-MCP