TTS-MCP

Integrations

  • Leverages OpenAI's TTS API to convert text to high-quality speech with multiple voice options, models, and output formats

tts-mcp

Un servidor de Protocolo de Contexto de Modelo (MCP) y una herramienta de línea de comandos para la generación de texto a voz de alta calidad utilizando la API TTS de OpenAI.

Características principales

  • Servidor MCP : integre capacidades de texto a voz con Claude Desktop y otros clientes compatibles con MCP
  • Opciones de voz : Soporte para múltiples personajes de voz (alloy, nova, echo, etc.)
  • Audio de alta calidad : Compatibilidad con varios formatos de salida (MP3, WAV, OPUS, AAC)
  • Personalizable : configure la velocidad del habla, el carácter de la voz y las instrucciones adicionales
  • Herramienta CLI : También disponible como utilidad de línea de comandos para la conversión directa de texto a voz

Instalación

Método 1: Instalar desde el repositorio

# Clone the repository git clone https://github.com/nakamurau1/tts-mcp.git cd tts-mcp # Install dependencies npm install # Optional: Install globally npm install -g .

Método 2: Ejecutar directamente con npx (no requiere instalación)

# Start the MCP server directly npx tts-mcp tts-mcp-server --voice nova --model tts-1-hd # Use the CLI tool directly npx tts-mcp -t "Hello, world" -o hello.mp3

Uso del servidor MCP

El servidor MCP le permite integrar la funcionalidad de texto a voz con clientes compatibles con el Protocolo de contexto de modelo (MCP) como Claude Desktop.

Iniciar el servidor MCP

# Start with default settings npm run server # Start with custom settings npm run server -- --voice nova --model tts-1-hd # Or directly with API key node bin/tts-mcp-server.js --voice echo --api-key your-openai-api-key

Opciones del servidor MCP

Options: -V, --version Display version information -m, --model <model> TTS model to use (default: "gpt-4o-mini-tts") -v, --voice <voice> Voice character (default: "alloy") -f, --format <format> Audio format (default: "mp3") --api-key <key> OpenAI API key (can also be set via environment variable) -h, --help Display help information

Integración con clientes MCP

El servidor MCP se puede utilizar con Claude Desktop y otros clientes compatibles con MCP. Para la integración con Claude Desktop:

  1. Abra el archivo de configuración de Claude Desktop (normalmente en ~/Library/Application Support/Claude/claude_desktop_config.json )
  2. Agregue la siguiente configuración, incluida su clave API de OpenAI:
{ "mcpServers": { "tts-mcp": { "command": "node", "args": ["full/path/to/bin/tts-mcp-server.js", "--voice", "nova", "--api-key", "your-openai-api-key"], "env": { "OPENAI_API_KEY": "your-openai-api-key" } } } }

Alternativamente, puede utilizar npx para una configuración más sencilla:

{ "mcpServers": { "tts-mcp": { "command": "npx", "args": ["-p", "tts-mcp", "tts-mcp-server", "--voice", "nova", "--model", "gpt-4o-mini-tts"], "env": { "OPENAI_API_KEY": "your-openai-api-key" } } } }

Puede proporcionar la clave API de dos maneras:

  1. Método directo (recomendado para pruebas): Inclúyalo en la matriz args usando el parámetro --api-key
  2. Método de variable de entorno (más seguro): configúrelo en el objeto env como se muestra arriba

Nota de seguridad : asegúrese de proteger su archivo de configuración al incluir claves API.

  1. Reiniciar Claude Desktop
  2. Cuando le pides a Claude que "lea este texto en voz alta" o solicitudes similares, el texto se convertirá en voz.

Herramientas MCP disponibles

  • texto a voz : herramienta para convertir texto a voz y reproducirlo

Uso de la herramienta CLI

También puede utilizar tts-mcp como una herramienta de línea de comandos independiente:

# Convert text directly tts-mcp -t "Hello, world" -o hello.mp3 # Convert from a text file tts-mcp -f speech.txt -o speech.mp3 # Specify custom voice tts-mcp -t "Welcome to the future" -o welcome.mp3 -v nova

Opciones de la herramienta CLI

Options: -V, --version Display version information -t, --text <text> Text to convert -f, --file <path> Path to input text file -o, --output <path> Path to output audio file (required) -m, --model <n> Model to use (default: "gpt-4o-mini-tts") -v, --voice <n> Voice character (default: "alloy") -s, --speed <number> Speech speed (0.25-4.0) (default: 1) --format <format> Output format (default: "mp3") -i, --instructions <text> Additional instructions for speech generation --api-key <key> OpenAI API key (can also be set via environment variable) -h, --help Display help information

Voces compatibles

Se admiten los siguientes caracteres de voz:

  • aleación (predeterminado)
  • ceniza
  • coral
  • eco
  • fábula
  • ónix
  • estrella nueva
  • sabio
  • brillar

Modelos compatibles

  • tts-1
  • tts-1-hd
  • gpt-4o-mini-tts (predeterminado)

Formatos de salida

Se admiten los siguientes formatos de salida:

  • mp3 (predeterminado)
  • opus
  • aac
  • flac
  • onda
  • PCM

Variables de entorno

También puede configurar la herramienta utilizando variables de entorno del sistema:

OPENAI_API_KEY=your-api-key-here

Licencia

Instituto Tecnológico de Massachusetts (MIT)

-
security - not tested
A
license - permissive license
-
quality - not tested

Un servidor de protocolo de contexto de modelo que integra capacidades de conversión de texto a voz de alta calidad con Claude Desktop y otros clientes compatibles con MCP, admitiendo múltiples opciones de voz y formatos de audio.

  1. Main Features
    1. Installation
      1. Method 1: Install from Repository
      2. Method 2: Run Directly with npx (No Installation Required)
    2. MCP Server Usage
      1. Starting the MCP Server
      2. MCP Server Options
      3. Integrating with MCP Clients
      4. Available MCP Tools
    3. CLI Tool Usage
      1. CLI Tool Options
    4. Supported Voices
      1. Supported Models
        1. Output Formats
          1. Environment Variables
            1. License
              ID: giltt11bwx