Integrations
Discurso MCP
Una extensión de Goose MCP para la interacción de voz con visualización de audio moderna.
https://github.com/user-attachments/assets/f10f29d9-8444-43fb-a919-c80b9e0a12c8
Descripción general
Speech MCP proporciona una interfaz de voz para Goose , que permite a los usuarios interactuar mediante voz en lugar de texto. Incluye:
- Procesamiento de audio en tiempo real para reconocimiento de voz
- Conversión de voz a texto local mediante un susurro más rápido (una implementación más rápida del modelo Whisper de OpenAI)
- Texto a voz de alta calidad con múltiples opciones de voz
- Interfaz de usuario moderna basada en PyQt con visualización de audio
- Interfaz de línea de comandos sencilla para interacción de voz
Características
- Interfaz de usuario moderna : interfaz elegante basada en PyQt con visualización de audio y tema oscuro
- Entrada de voz : captura y transcribe el habla del usuario mediante un susurro más rápido
- Salida de voz : Convierta las respuestas del agente en voz con más de 54 opciones de voz
- Narración con múltiples voces : genere archivos de audio con múltiples voces para historias y diálogos.
- Narración de una sola voz : Convierte cualquier texto a voz con tu voz preferida
- Transcripción de audio/video : transcriba voz desde varios formatos de medios con marcas de tiempo opcionales y detección del hablante
- Persistencia de voz : recuerda tu voz preferida entre sesiones
- Conversación continua : escucha automáticamente la entrada del usuario después de las respuestas del agente
- Detección de silencio : detiene automáticamente la grabación cuando el usuario deja de hablar
- Manejo robusto de errores : recuperación elegante de modos de falla comunes con útiles sugerencias de voz
Instalación
Nota importante : Tras la instalación, la primera vez que utilice la interfaz de voz, la descarga de los modelos de voz de Kokoro puede tardar varios minutos (aproximadamente 523 KB por voz). Durante esta configuración inicial, el sistema utilizará una voz alternativa con un sonido más robótico. Una vez descargadas las voces de Kokoro, las voces de alta calidad se utilizarán automáticamente.
⚠️ PRERREQUISITOS IMPORTANTES ⚠️
Antes de instalar Speech MCP, DEBE instalar PortAudio en su sistema. PortAudio es necesario para que PyAudio capture el audio de su micrófono.
Instrucciones de instalación de PortAudio
macOS:
Linux (Debian/Ubuntu):
Linux (Fedora/RHEL/CentOS):
Windows: para Windows, PortAudio está incluido en el archivo wheel de PyAudio, por lo que no se requiere una instalación separada al instalar PyAudio con pip.
Nota : Si omite este paso, la instalación de PyAudio fallará con errores "archivo portaudio.h no encontrado" y la extensión no funcionará.
Opción 1: Instalación rápida (un clic)
Haga clic en el enlace a continuación si tiene Goose instalado:
Opción 2: Usar Goose CLI (recomendado)
Inicie Goose con su extensión habilitada:
Opción 3: Configuración manual en Goose
- Ejecutar
goose configure
- Seleccione "Agregar extensión" en el menú
- Seleccione "Extensión de línea de comandos"
- Introduzca un nombre (por ejemplo, "Interfaz de voz")
- Para el comando, ingrese:
speech-mcp
- Siga las instrucciones para completar la configuración.
Opción 4: Instalación manual
- Instalar PortAudio (ver sección Requisitos previos )
- Clonar este repositorio
- Instalar dependencias:O para una instalación completa incluyendo Kokoro TTS:CopyCopy
Dependencias
- Python 3.10+
- PyQt5 (para interfaz de usuario moderna)
- PyAudio (para captura de audio)
- Susurro más rápido (para conversión de voz a texto)
- NumPy (para procesamiento de audio)
- Pydub (para procesamiento de audio)
- psutil (para la gestión de procesos)
Dependencias opcionales
- Kokoro TTS : para texto a voz de alta calidad con múltiples voces
- Para instalar Kokoro, puedes usar pip con dependencias opcionales:Copy
- Alternativamente, ejecute el script de instalación:
python scripts/install_kokoro.py
- Consulte la Guía Kokoro TTS para obtener más información
- Para instalar Kokoro, puedes usar pip con dependencias opcionales:
Narración con varios hablantes
El MCP permite generar archivos de audio con múltiples voces, ideal para crear historias, diálogos y lecturas teatrales. Puedes usar formato JSON o Markdown para definir tus conversaciones.
Ejemplo de formato JSON:
Ejemplo de formato Markdown:
Voces disponibles por categoría:
- Mujer estadounidense (af_*):
- aleación, aoede, bella, corazón, jessica, kore, nicole, nova, río, sarah, cielo
- Masculino estadounidense (am_*):
- Adán, Echo, Eric, Fenrir, Liam, Michael, Onyx, Puck, Santa
- Mujer británica (bf_*):
- Alicia, Emma, Isabella, Lily
- Hombre británico (bm_*):
- Daniel, fábula, George Lewis
- Otro inglés :
- ef_dora (Mujer)
- em_alex, em_santa (Hombre)
- Otros idiomas :
- Francés: ff_siwis
- Hindi: hf_alpha, hf_beta, hm_omega, hm_psi
- Italiano: if_sara, im_nicola
- Japonés: jf_ , jm_
- Portugués: pf_dora, pm_alex, pm_santa
- Chino: zf_ , zm_
Ejemplo de uso:
Cada voz en la conversación puede ser diferente, lo que permite voces distintivas de los personajes en historias y diálogos. El parámetro pause_after
añade pausas naturales entre segmentos.
Narración de una sola voz
Para una conversión sencilla de texto a voz, puede utilizar la herramienta narrate
:
La herramienta de narración usará la preferencia de voz configurada o la voz predeterminada (af_heart) para generar el archivo de audio. Puede cambiar la voz predeterminada a través de la interfaz de usuario o configurando la variable de entorno SPEECH_MCP_TTS_VOICE
.
Transcripción de audio
El MCP puede transcribir el habla desde varios formatos de audio y vídeo utilizando un susurro más rápido:
Formatos admitidos:
- Audio : mp3, wav, m4a, flac, aac, ogg
- Vídeo : mp4, mov, avi, mkv, webm (el audio se extrae automáticamente)
Archivos de salida:
La herramienta de transcripción genera dos archivos:
{input_name}.transcript.txt
: Contiene el texto de la transcripción{input_name}.metadata.json
: Contiene metadatos sobre la transcripción
Características:
- Detección automática del idioma
- Marcas de tiempo a nivel de palabra opcionales
- Detección de altavoz opcional
- Extracción de audio eficiente de archivos de vídeo
- Seguimiento del progreso de archivos largos
- Metadatos detallados que incluyen:
- Duración
- Confianza en la detección del idioma
- Tiempo de procesamiento
- Cambios de orador (cuando está habilitado)
Uso
Para usar este MCP con Goose, simplemente pídale a Goose que le hable o inicie una conversación de voz:
- Inicie una conversación diciendo algo como:Copy
- Goose iniciará automáticamente la interfaz de voz y comenzará a escuchar su entrada de voz.
- Cuando Goose responda, dirá la respuesta en voz alta y luego escuchará automáticamente su siguiente entrada.
- La conversación continúa de forma natural, alternando hablar y escuchar, como si estuviéramos hablando con una persona.
No es necesario llamar a funciones específicas ni utilizar comandos especiales: simplemente pídale a Goose que hable y comience a hablar naturalmente.
Características de la interfaz de usuario
La nueva interfaz de usuario basada en PyQt incluye:
- Tema oscuro moderno : apariencia elegante y profesional
- Visualización de audio : Visualización dinámica de la entrada de audio
- Selección de voz : elija entre más de 54 opciones de voz
- Persistencia de voz : su preferencia de voz se guarda entre sesiones
- Efectos animados : animaciones fluidas y retroalimentación visual.
- Indicadores de estado : indicación clara del estado del sistema (listo, escuchando, procesando)
Configuración
Las preferencias del usuario se almacenan en ~/.config/speech-mcp/config.json
e incluyen:
- Voz TTS seleccionada
- Preferencia del motor TTS
- Velocidad de voz
- Código de idioma
- Configuración del tema de la interfaz de usuario
También puede establecer preferencias a través de variables de entorno, como:
SPEECH_MCP_TTS_VOICE
- Establezca su voz preferidaSPEECH_MCP_TTS_ENGINE
- Configure su motor TTS preferido
Solución de problemas
Si tiene problemas con la extensión que se congela o no responde:
- Consulte los registros : consulte los archivos de registro en
src/speech_mcp/
para obtener mensajes de error detallados. - Restablecer el estado : si la extensión parece estar bloqueada, intenta eliminar
src/speech_mcp/speech_state.json
o configurar todos los estados comofalse
. - Utilice el comando directo : En lugar de
uv run speech-mcp
, utilice el paquete instalado conspeech-mcp
directamente. - Verifique los dispositivos de audio : asegúrese de que su micrófono esté configurado correctamente y sea accesible para Python.
- Verificar dependencias : asegúrese de que todas las dependencias necesarias estén instaladas correctamente.
Problemas comunes de PortAudio
"Error en la instalación de PyAudio" o "No se encontró el archivo portaudio.h"
Generalmente esto significa que PortAudio no está instalado o no se encuentra en su sistema:
- macOS :Copy
- Linux : asegúrate de tener los paquetes de desarrollo:Copy
"Dispositivo de audio no encontrado" o "No hay ningún dispositivo de entrada predeterminado disponible"
- Comprueba si tu micrófono está conectado correctamente
- Verifique que su sistema reconozca el micrófono en su configuración de sonido
- Intente seleccionar un índice de dispositivo específico en el código si tiene varios dispositivos de audio
Registro de cambios
Para obtener una lista detallada de las mejoras recientes y el historial de versiones, consulte el Registro de cambios .
Detalles técnicos
Conversión de voz a texto
El MCP utiliza un susurro más rápido para el reconocimiento de voz:
- Utiliza el modelo "base" para un buen equilibrio entre precisión y velocidad.
- Procesa audio localmente sin enviar datos a servicios externos
- Detecta automáticamente cuando el usuario ha terminado de hablar.
- Proporciona un rendimiento mejorado con respecto a la implementación original de Whisper.
Texto a voz
El MCP admite varios motores de conversión de texto a voz:
Predeterminado: pyttsx3
- Utiliza las voces del sistema disponibles en su computadora
- Funciona de inmediato sin necesidad de configuración adicional
- Calidad de voz limitada y personalización
Opcional: Kokoro TTS
- Texto a voz neuronal de alta calidad con múltiples voces
- Modelo ligero (82 millones de parámetros) que se ejecuta de manera eficiente en la CPU
- Múltiples estilos de voz e idiomas.
- Para instalar:
python scripts/install_kokoro.py
Nota sobre los modelos de voz : Los modelos de voz son archivos .pt
(modelos de PyTorch) que Kokoro carga. Cada modelo de voz tiene un tamaño aproximado de 523 KB y se descarga automáticamente cuando es necesario.
Persistencia de voz : La voz seleccionada se guarda automáticamente en un archivo de configuración ( ~/.config/speech-mcp/config.json
) y se recordará entre sesiones. Esto permite a los usuarios configurar su voz preferida una vez y usarla de forma consistente.
Voces de Kokoro disponibles
Speech MCP admite más de 54 modelos de voz de alta calidad a través de Kokoro TTS. Para obtener una lista completa de las voces y opciones de idioma disponibles, visite el repositorio de Kokoro en GitHub .
Licencia
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Una extensión de Goose MCP que proporciona interacción de voz con visualización de audio moderna, lo que permite a los usuarios comunicarse con Goose a través de voz en lugar de texto.
- Descripción general
- Características
- Instalación
- ⚠️ PRERREQUISITOS IMPORTANTES ⚠️
- Dependencias
- Narración con varios hablantes
- Narración de una sola voz
- Transcripción de audio
- Uso
- Características de la interfaz de usuario
- Configuración
- Solución de problemas
- Registro de cambios
- Detalles técnicos
- Licencia
Related Resources
Related MCP Servers
- -securityAlicense-qualityEnables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.Last updated -4PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.Last updated -TypeScriptMIT License
- -securityAlicense-qualityA MCP server that creates graphic recordings by converting websites or text input into visual summaries using different prompt styles (standard, elementary, timeline).Last updated -TypeScriptMIT License
- -security-license-qualityAn MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.Last updated -1JavaScriptMIT License