Discurso MCP
Una extensión de Goose MCP para la interacción de voz con visualización de audio moderna.
https://github.com/user-attachments/assets/f10f29d9-8444-43fb-a919-c80b9e0a12c8
Descripción general
Speech MCP proporciona una interfaz de voz para Goose , que permite a los usuarios interactuar mediante voz en lugar de texto. Incluye:
Procesamiento de audio en tiempo real para reconocimiento de voz
Conversión de voz a texto local mediante un susurro más rápido (una implementación más rápida del modelo Whisper de OpenAI)
Texto a voz de alta calidad con múltiples opciones de voz
Interfaz de usuario moderna basada en PyQt con visualización de audio
Interfaz de línea de comandos sencilla para interacción de voz
Características
Interfaz de usuario moderna : interfaz elegante basada en PyQt con visualización de audio y tema oscuro
Entrada de voz : captura y transcribe el habla del usuario mediante un susurro más rápido
Salida de voz : Convierta las respuestas del agente en voz con más de 54 opciones de voz
Narración con múltiples voces : genere archivos de audio con múltiples voces para historias y diálogos.
Narración de una sola voz : Convierte cualquier texto a voz con tu voz preferida
Transcripción de audio/video : transcriba voz desde varios formatos de medios con marcas de tiempo opcionales y detección del hablante
Persistencia de voz : recuerda tu voz preferida entre sesiones
Conversación continua : escucha automáticamente la entrada del usuario después de las respuestas del agente
Detección de silencio : detiene automáticamente la grabación cuando el usuario deja de hablar
Manejo robusto de errores : recuperación elegante de modos de falla comunes con útiles sugerencias de voz
Instalación
Nota importante : Tras la instalación, la primera vez que utilice la interfaz de voz, la descarga de los modelos de voz de Kokoro puede tardar varios minutos (aproximadamente 523 KB por voz). Durante esta configuración inicial, el sistema utilizará una voz alternativa con un sonido más robótico. Una vez descargadas las voces de Kokoro, las voces de alta calidad se utilizarán automáticamente.
⚠️ PRERREQUISITOS IMPORTANTES ⚠️
Antes de instalar Speech MCP, DEBE instalar PortAudio en su sistema. PortAudio es necesario para que PyAudio capture el audio de su micrófono.
Instrucciones de instalación de PortAudio
macOS:
Linux (Debian/Ubuntu):
Linux (Fedora/RHEL/CentOS):
Windows: para Windows, PortAudio está incluido en el archivo wheel de PyAudio, por lo que no se requiere una instalación separada al instalar PyAudio con pip.
Nota : Si omite este paso, la instalación de PyAudio fallará con errores "archivo portaudio.h no encontrado" y la extensión no funcionará.
Opción 1: Instalación rápida (un clic)
Haga clic en el enlace a continuación si tiene Goose instalado:
Opción 2: Usar Goose CLI (recomendado)
Inicie Goose con su extensión habilitada:
Opción 3: Configuración manual en Goose
Ejecutar
goose configure
Seleccione "Agregar extensión" en el menú
Seleccione "Extensión de línea de comandos"
Introduzca un nombre (por ejemplo, "Interfaz de voz")
Para el comando, ingrese:
speech-mcp
Siga las instrucciones para completar la configuración.
Opción 4: Instalación manual
Instalar PortAudio (ver sección Requisitos previos )
Clonar este repositorio
Instalar dependencias:
uv pip install -e .O para una instalación completa incluyendo Kokoro TTS:
uv pip install -e .[all]
Dependencias
Python 3.10+
PyQt5 (para interfaz de usuario moderna)
PyAudio (para captura de audio)
Susurro más rápido (para conversión de voz a texto)
NumPy (para procesamiento de audio)
Pydub (para procesamiento de audio)
psutil (para la gestión de procesos)
Dependencias opcionales
Kokoro TTS : para texto a voz de alta calidad con múltiples voces
Para instalar Kokoro, puedes usar pip con dependencias opcionales:
pip install speech-mcp[kokoro] # Basic Kokoro support with English pip install speech-mcp[ja] # Add Japanese support pip install speech-mcp[zh] # Add Chinese support pip install speech-mcp[all] # All languages and featuresAlternativamente, ejecute el script de instalación:
python scripts/install_kokoro.py
Consulte la Guía Kokoro TTS para obtener más información
Narración con varios hablantes
El MCP permite generar archivos de audio con múltiples voces, ideal para crear historias, diálogos y lecturas teatrales. Puedes usar formato JSON o Markdown para definir tus conversaciones.
Ejemplo de formato JSON:
Ejemplo de formato Markdown:
Voces disponibles por categoría:
Mujer estadounidense (af_*):
aleación, aoede, bella, corazón, jessica, kore, nicole, nova, río, sarah, cielo
Masculino estadounidense (am_*):
Adán, Echo, Eric, Fenrir, Liam, Michael, Onyx, Puck, Santa
Mujer británica (bf_*):
Alicia, Emma, Isabella, Lily
Hombre británico (bm_*):
Daniel, fábula, George Lewis
Otro inglés :
ef_dora (Mujer)
em_alex, em_santa (Hombre)
Otros idiomas :
Francés: ff_siwis
Hindi: hf_alpha, hf_beta, hm_omega, hm_psi
Italiano: if_sara, im_nicola
Japonés: jf_ , jm_
Portugués: pf_dora, pm_alex, pm_santa
Chino: zf_ , zm_
Ejemplo de uso:
Cada voz en la conversación puede ser diferente, lo que permite voces distintivas de los personajes en historias y diálogos. El parámetro pause_after
añade pausas naturales entre segmentos.
Narración de una sola voz
Para una conversión sencilla de texto a voz, puede utilizar la herramienta narrate
:
La herramienta de narración usará la preferencia de voz configurada o la voz predeterminada (af_heart) para generar el archivo de audio. Puede cambiar la voz predeterminada a través de la interfaz de usuario o configurando la variable de entorno SPEECH_MCP_TTS_VOICE
.
Transcripción de audio
El MCP puede transcribir el habla desde varios formatos de audio y vídeo utilizando un susurro más rápido:
Formatos admitidos:
Audio : mp3, wav, m4a, flac, aac, ogg
Vídeo : mp4, mov, avi, mkv, webm (el audio se extrae automáticamente)
Archivos de salida:
La herramienta de transcripción genera dos archivos:
{input_name}.transcript.txt
: Contiene el texto de la transcripción{input_name}.metadata.json
: Contiene metadatos sobre la transcripción
Características:
Detección automática del idioma
Marcas de tiempo a nivel de palabra opcionales
Detección de altavoz opcional
Extracción de audio eficiente de archivos de vídeo
Seguimiento del progreso de archivos largos
Metadatos detallados que incluyen:
Duración
Confianza en la detección del idioma
Tiempo de procesamiento
Cambios de orador (cuando está habilitado)
Uso
Para usar este MCP con Goose, simplemente pídale a Goose que le hable o inicie una conversación de voz:
Inicie una conversación diciendo algo como:
"Let's talk using voice" "Can we have a voice conversation?" "I'd like to speak instead of typing"Goose iniciará automáticamente la interfaz de voz y comenzará a escuchar su entrada de voz.
Cuando Goose responda, dirá la respuesta en voz alta y luego escuchará automáticamente su siguiente entrada.
La conversación continúa de forma natural, alternando hablar y escuchar, como si estuviéramos hablando con una persona.
No es necesario llamar a funciones específicas ni utilizar comandos especiales: simplemente pídale a Goose que hable y comience a hablar naturalmente.
Características de la interfaz de usuario
La nueva interfaz de usuario basada en PyQt incluye:
Tema oscuro moderno : apariencia elegante y profesional
Visualización de audio : Visualización dinámica de la entrada de audio
Selección de voz : elija entre más de 54 opciones de voz
Persistencia de voz : su preferencia de voz se guarda entre sesiones
Efectos animados : animaciones fluidas y retroalimentación visual.
Indicadores de estado : indicación clara del estado del sistema (listo, escuchando, procesando)
Configuración
Las preferencias del usuario se almacenan en ~/.config/speech-mcp/config.json
e incluyen:
Voz TTS seleccionada
Preferencia del motor TTS
Velocidad de voz
Código de idioma
Configuración del tema de la interfaz de usuario
También puede establecer preferencias a través de variables de entorno, como:
SPEECH_MCP_TTS_VOICE
- Establezca su voz preferidaSPEECH_MCP_TTS_ENGINE
- Configure su motor TTS preferido
Solución de problemas
Si tiene problemas con la extensión que se congela o no responde:
Consulte los registros : consulte los archivos de registro en
src/speech_mcp/
para obtener mensajes de error detallados.Restablecer el estado : si la extensión parece estar bloqueada, intenta eliminar
src/speech_mcp/speech_state.json
o configurar todos los estados comofalse
.Utilice el comando directo : En lugar de
uv run speech-mcp
, utilice el paquete instalado conspeech-mcp
directamente.Verifique los dispositivos de audio : asegúrese de que su micrófono esté configurado correctamente y sea accesible para Python.
Verificar dependencias : asegúrese de que todas las dependencias necesarias estén instaladas correctamente.
Problemas comunes de PortAudio
"Error en la instalación de PyAudio" o "No se encontró el archivo portaudio.h"
Generalmente esto significa que PortAudio no está instalado o no se encuentra en su sistema:
macOS :
brew install portaudio export LDFLAGS="-L/usr/local/lib" export CPPFLAGS="-I/usr/local/include" pip install pyaudioLinux : asegúrate de tener los paquetes de desarrollo:
# For Debian/Ubuntu sudo apt-get install portaudio19-dev python3-dev pip install pyaudio # For Fedora sudo dnf install portaudio-devel pip install pyaudio
"Dispositivo de audio no encontrado" o "No hay ningún dispositivo de entrada predeterminado disponible"
Comprueba si tu micrófono está conectado correctamente
Verifique que su sistema reconozca el micrófono en su configuración de sonido
Intente seleccionar un índice de dispositivo específico en el código si tiene varios dispositivos de audio
Registro de cambios
Para obtener una lista detallada de las mejoras recientes y el historial de versiones, consulte el Registro de cambios .
Detalles técnicos
Conversión de voz a texto
El MCP utiliza un susurro más rápido para el reconocimiento de voz:
Utiliza el modelo "base" para un buen equilibrio entre precisión y velocidad.
Procesa audio localmente sin enviar datos a servicios externos
Detecta automáticamente cuando el usuario ha terminado de hablar.
Proporciona un rendimiento mejorado con respecto a la implementación original de Whisper.
Texto a voz
El MCP admite varios motores de conversión de texto a voz:
Predeterminado: pyttsx3
Utiliza las voces del sistema disponibles en su computadora
Funciona de inmediato sin necesidad de configuración adicional
Calidad de voz limitada y personalización
Opcional: Kokoro TTS
Texto a voz neuronal de alta calidad con múltiples voces
Modelo ligero (82 millones de parámetros) que se ejecuta de manera eficiente en la CPU
Múltiples estilos de voz e idiomas.
Para instalar:
python scripts/install_kokoro.py
Nota sobre los modelos de voz : Los modelos de voz son archivos .pt
(modelos de PyTorch) que Kokoro carga. Cada modelo de voz tiene un tamaño aproximado de 523 KB y se descarga automáticamente cuando es necesario.
Persistencia de voz : La voz seleccionada se guarda automáticamente en un archivo de configuración ( ~/.config/speech-mcp/config.json
) y se recordará entre sesiones. Esto permite a los usuarios configurar su voz preferida una vez y usarla de forma consistente.
Voces de Kokoro disponibles
Speech MCP admite más de 54 modelos de voz de alta calidad a través de Kokoro TTS. Para obtener una lista completa de las voces y opciones de idioma disponibles, visite el repositorio de Kokoro en GitHub .
Licencia
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Una extensión de Goose MCP que proporciona interacción de voz con visualización de audio moderna, lo que permite a los usuarios comunicarse con Goose a través de voz en lugar de texto.
- Descripción general
- Características
- Instalación
- ⚠️ PRERREQUISITOS IMPORTANTES ⚠️
- Dependencias
- Narración con varios hablantes
- Narración de una sola voz
- Transcripción de audio
- Uso
- Características de la interfaz de usuario
- Configuración
- Solución de problemas
- Registro de cambios
- Detalles técnicos
- Licencia
Related Resources
Related MCP Servers
- -securityAlicense-qualityEnables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.Last updated -6MIT License
- AsecurityFlicenseAqualityThis MCP server allows users to create, manage, and serve web applications through Goose, storing apps in configurable directories and providing web app serving capabilities.Last updated -92
- -securityAlicense-qualityAn MCP server that enables interaction with Kubernetes resources through natural language interfaces like Goose CLI, allowing users to get, read, and patch Kubernetes resources.Last updated -Apache 2.0
- -securityAlicense-qualityGives Goose/Cursor access to your iOS/macOS project index through the Model Control Protocol (MCP) and IndexStoreDB. This provides exhaustive lists of function call sites to help your agent with refactoring and code navigation.Last updated -19Apache 2.0