Skip to main content
Glama

Voicevox MCP Server

by Dosugamea

Servidor MCP de Voicevox

Este es un servidor para utilizar servidores de síntesis de voz compatibles con VOICEVOX (AivisSpeech / VOICEVOX / COEIROINK) a través de MCP (Model Context Protocol). Se puede utilizar para la síntesis de voz en modo agente usando Claude 3.7 en Cursor, etc.

Prerrequisitos

Entorno de Windows

Entorno Docker (WSL2)

  • Docker y Docker Compose
  • WSL2
  • MOTOR VOICEVOX, etc. (se ejecuta localmente o en Docker)
  • sudo apt install libsdl2-dev pulseaudio-utils pulseaudio
  • Permisos de acceso a /mnt/wslg

Instalación y configuración

  1. Clonar el repositorio
git clone https://github.com/Dosugamea/voicevox-mcp-server.git cd voicevox-mcp-server
  1. Instalación de dependencias
npm install
  1. Configuración de variables de entorno Cree un archivo .env copiando .env_example y modificando la configuración según sea necesario:
VOICEVOX_API_URL=http://localhost:50021 VOICEVOX_SPEAKER_ID=1

Cómo hacerlo

Ejecución en entorno Windows

Inicie un servidor por separado del editor siguiendo los pasos a continuación.

npm run build npm start

Ejecución en entorno Docker

No se requiere ningún editor ni operación independiente. No se puede ejecutar directamente porque se inicia en modo stdio.

Cómo configurarlo

Cuando se ejecuta en un entorno Windows

Agregue lo siguiente a mcp.json. La conexión es inestable, por lo que debe volver a conectarla si se desconecta.

"voicevox": { "url": "http://localhost:10100/sse" }

Cuando se ejecuta en un entorno Docker

Agregue lo siguiente a mcp.json. (El entorno del autor no ha sido probado).

{ "tools": { "voicevox": { "command": "cmd", "args": [ "/c", "docker", "run", "-i", "--rm", "-v", "/mnt/wslg:/mnt/wslg", "-e", "PULSE_SERVER", "-e", "SDL_AUDIODRIVER", "-e", "VOICEVOX_API_URL", "-e", "VOICEVOX_SPEAKER_ID", "your-local-docker-image-name" ], "env": { "PULSE_SERVER": "unix:/mnt/wslg/PulseServer", "SDL_AUDIODRIVER": "pulseaudio", "VOICEVOX_API_URL": "http://host.docker.internal:50031", "VOICEVOX_SPEAKER_ID": "919692871" } } } }

Acerca de la identificación del orador

La identificación del altavoz varía según el modelo de VOICEVOX que utilice. El valor predeterminado es utilizar "1" (Shikoku Metal). Si desea utilizar otro ID de altavoz, cambie la variable de entorno VOICEVOX_SPEAKER_ID .

La lista de identificaciones de oradores se puede encontrar en /speakers de la API VOICEVOX ENGINE. Ejemplo: curl http://localhost:50021/speakers

solución de problemas

  • Error de conexión con VOICEVOX : asegúrese de que VOICEVOX ENGINE se esté ejecutando y que la URL de la API esté configurada correctamente.
  • No se reproduce sonido : asegúrese de que VLC esté instalado correctamente y en su ruta.
  • Problema de salida de audio en el entorno Docker : verifique que pulseaudio esté configurado correctamente.

Información para desarrolladores

  • Para contribuir al código fuente, cree un problema o envíe una solicitud de extracción.
  • Para informar errores o solicitar funciones, utilice la función Problemas en GitHub.

licencia

Licencia MIT

-
security - not tested
A
license - permissive license
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Un servidor que permite a Claude 3.7 y otros agentes de IA acceder a motores de síntesis de voz compatibles con VOICEVOX (AivisSpeech, VOICEVOX, COEIROINK) a través del Protocolo de Contexto de Modelo.

  1. Prerrequisitos
    1. Entorno de Windows
    2. Entorno Docker (WSL2)
  2. Instalación y configuración
    1. Cómo hacerlo
      1. Ejecución en entorno Windows
      2. Ejecución en entorno Docker
    2. Cómo configurarlo
      1. Cuando se ejecuta en un entorno Windows
      2. Cuando se ejecuta en un entorno Docker
    3. Acerca de la identificación del orador
      1. solución de problemas
        1. Información para desarrolladores
          1. licencia

            Related MCP Servers

            • -
              security
              F
              license
              -
              quality
              Provides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.
              Last updated -
              2
              Python
            • -
              security
              F
              license
              -
              quality
              A Model Context Protocol server that enables AI assistants to utilize AivisSpeech Engine's high-quality voice synthesis capabilities through a standardized API interface.
              Last updated -
              TypeScript
            • A
              security
              A
              license
              A
              quality
              A Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.
              Last updated -
              1
              15
              4
              JavaScript
              The Unlicense
              • Apple
              • Linux
            • -
              security
              A
              license
              -
              quality
              A Model Context Protocol server that enables AI assistants like Claude to initiate and manage real-time voice calls using Twilio and OpenAI's voice models.
              Last updated -
              14
              TypeScript
              MIT License
              • Apple

            View all related MCP servers

            MCP directory API

            We provide all the information about MCP servers via our MCP API.

            curl -X GET 'https://glama.ai/api/mcp/v1/servers/Dosugamea/voicevox-mcp-server'

            If you have feedback or need assistance with the MCP directory API, please join our Discord server