Integrations
Provides installation support via GitHub repository, allowing users to clone and install the voice-recorder-mcp from DefiBax's GitHub account
Uses OpenAI's Whisper model for audio transcription, enabling conversion of recorded voice to text with different model sizes for varying accuracy and performance needs
Servidor MCP de grabadora de voz
Un servidor MCP para grabar audio y transcribirlo usando el modelo Whisper de OpenAI. Diseñado para funcionar como una extensión personalizada de Goose o como un servidor MCP independiente.
Características
- Grabar audio desde el micrófono predeterminado
- Transcribir grabaciones usando Whisper
- Se integra con el agente Goose AI como una extensión personalizada
- Incluye indicaciones para escenarios de grabación comunes.
Instalación
Uso
Como servidor MCP independiente
Pruebas con MCP Inspector
El Inspector MCP proporciona una interfaz interactiva para probar su servidor:
Con Goose AI Agent
- Abra Goose y vaya a Configuración > Extensiones > Agregar > Extensión de línea de comandos
- Establezca el nombre en
voice-recorder
- En el campo Comando, ingrese la ruta completa al ejecutable voice-recorder-mcp:O para un modelo específico:CopyPara encontrar la ruta, ejecute:CopyCopy
- No se necesitan variables de entorno para la funcionalidad básica
- Inicia una conversación con Goose y presenta la grabadora con: "Quiero que tomes medidas a partir de las transcripciones devueltas por la grabadora de voz. Por ejemplo, si dicto un cálculo como 1+1, por favor, devuelve el resultado".
Herramientas disponibles
start_recording
: Iniciar grabación de audio desde el micrófono predeterminadostop_and_transcribe
: Detener la grabación y transcribir el audio a textorecord_and_transcribe
: graba audio durante una duración específica y lo transcribe
Modelos susurrantes
Esta extensión admite varios tamaños de modelos Whisper:
Modelo | Velocidad | Exactitud | Uso de la memoria | Caso de uso |
---|---|---|---|---|
tiny.en | Lo más rápido | Más bajo | Mínimo | Pruebas, transcripciones rápidas |
base.en | Rápido | Bien | Bajo | Uso diario (predeterminado) |
small.en | Medio | Mejor | Moderado | Buen equilibrio |
medium.en | Lento | Alto | Alto | Grabaciones importantes |
large | El más lento | Más alto | Muy alto | Transcripciones críticas |
El sufijo .en
indica modelos especializados para inglés, que son más rápidos y precisos para el contenido en inglés.
Requisitos
- Python 3.12+
- Un dispositivo de entrada de audio (micrófono)
Configuración
Puede configurar el servidor utilizando variables de entorno:
Solución de problemas
Problemas comunes
- No se graba audio : Verifique los permisos y la configuración de su micrófono
- Errores de descarga del modelo : asegúrese de tener una conexión a Internet estable para la descarga inicial del modelo
- Integración con Goose : asegúrese de que la ruta del comando sea correcta
- Problemas de calidad de audio : intente ajustar la frecuencia de muestreo (predeterminada: 16000)
Contribuyendo
¡Agradecemos sus contribuciones! No dude en enviar una solicitud de incorporación de cambios.
- Bifurcar el repositorio
- Crea tu rama de funciones (
git checkout -b feature/amazing-feature
) - Confirme sus cambios (
git commit -m 'Add some amazing feature'
) - Empujar a la rama (
git push origin feature/amazing-feature
) - Abrir una solicitud de extracción
Licencia
Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Permite grabar audio desde un micrófono y transcribirlo mediante el modelo Whisper de OpenAI. Funciona como servidor MCP independiente y como extensión del agente de Goose AI.
- Features
- Installation
- Usage
- Available Tools
- Whisper Models
- Requirements
- Configuration
- Troubleshooting
- Contributing
- License
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- AsecurityAlicenseAqualityMCP server for Synthesizer V AI Vocal Studio, which allows LLMs to create/edit vocal tracks e.g. adding lyrics to the melody.Last updated -6Apache 2.0
- -security-license-qualityAn MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.Last updated -1JavaScriptMIT License
ElevenLabs MCP Serverofficial
AsecurityAlicenseAqualityAn official Model Context Protocol (MCP) server that enables AI clients to interact with ElevenLabs' Text to Speech and audio processing APIs, allowing for speech generation, voice cloning, audio transcription, and other audio-related tasks.Last updated -19543PythonMIT License