Voice Recorder MCP Server

by DefiBax

Integrations

  • Provides installation support via GitHub repository, allowing users to clone and install the voice-recorder-mcp from DefiBax's GitHub account

  • Uses OpenAI's Whisper model for audio transcription, enabling conversion of recorded voice to text with different model sizes for varying accuracy and performance needs

Servidor MCP de grabadora de voz

Un servidor MCP para grabar audio y transcribirlo usando el modelo Whisper de OpenAI. Diseñado para funcionar como una extensión personalizada de Goose o como un servidor MCP independiente.

Características

  • Grabar audio desde el micrófono predeterminado
  • Transcribir grabaciones usando Whisper
  • Se integra con el agente Goose AI como una extensión personalizada
  • Incluye indicaciones para escenarios de grabación comunes.

Instalación

# Install from source git clone https://github.com/DefiBax/voice-recorder-mcp.git cd voice-recorder-mcp pip install -e .

Uso

Como servidor MCP independiente

# Run with default settings (base.en model) voice-recorder-mcp # Use a specific Whisper model voice-recorder-mcp --model medium.en # Adjust sample rate voice-recorder-mcp --sample-rate 44100

Pruebas con MCP Inspector

El Inspector MCP proporciona una interfaz interactiva para probar su servidor:

# Install the MCP Inspector npm install -g @modelcontextprotocol/inspector # Run your server with the inspector npx @modelcontextprotocol/inspector voice-recorder-mcp

Con Goose AI Agent

  1. Abra Goose y vaya a Configuración > Extensiones > Agregar > Extensión de línea de comandos
  2. Establezca el nombre en voice-recorder
  3. En el campo Comando, ingrese la ruta completa al ejecutable voice-recorder-mcp:
    /full/path/to/voice-recorder-mcp
    O para un modelo específico:
    /full/path/to/voice-recorder-mcp --model medium.en
    Para encontrar la ruta, ejecute:
    which voice-recorder-mcp
  4. No se necesitan variables de entorno para la funcionalidad básica
  5. Inicia una conversación con Goose y presenta la grabadora con: "Quiero que tomes medidas a partir de las transcripciones devueltas por la grabadora de voz. Por ejemplo, si dicto un cálculo como 1+1, por favor, devuelve el resultado".

Herramientas disponibles

  • start_recording : Iniciar grabación de audio desde el micrófono predeterminado
  • stop_and_transcribe : Detener la grabación y transcribir el audio a texto
  • record_and_transcribe : graba audio durante una duración específica y lo transcribe

Modelos susurrantes

Esta extensión admite varios tamaños de modelos Whisper:

ModeloVelocidadExactitudUso de la memoriaCaso de uso
tiny.enLo más rápidoMás bajoMínimoPruebas, transcripciones rápidas
base.enRápidoBienBajoUso diario (predeterminado)
small.enMedioMejorModeradoBuen equilibrio
medium.enLentoAltoAltoGrabaciones importantes
largeEl más lentoMás altoMuy altoTranscripciones críticas

El sufijo .en indica modelos especializados para inglés, que son más rápidos y precisos para el contenido en inglés.

Requisitos

  • Python 3.12+
  • Un dispositivo de entrada de audio (micrófono)

Configuración

Puede configurar el servidor utilizando variables de entorno:

# Set Whisper model export WHISPER_MODEL=small.en # Set audio sample rate export SAMPLE_RATE=44100 # Set maximum recording duration (seconds) export MAX_DURATION=120 # Then run the server voice-recorder-mcp

Solución de problemas

Problemas comunes

  • No se graba audio : Verifique los permisos y la configuración de su micrófono
  • Errores de descarga del modelo : asegúrese de tener una conexión a Internet estable para la descarga inicial del modelo
  • Integración con Goose : asegúrese de que la ruta del comando sea correcta
  • Problemas de calidad de audio : intente ajustar la frecuencia de muestreo (predeterminada: 16000)

Contribuyendo

¡Agradecemos sus contribuciones! No dude en enviar una solicitud de incorporación de cambios.

  1. Bifurcar el repositorio
  2. Crea tu rama de funciones ( git checkout -b feature/amazing-feature )
  3. Confirme sus cambios ( git commit -m 'Add some amazing feature' )
  4. Empujar a la rama ( git push origin feature/amazing-feature )
  5. Abrir una solicitud de extracción

Licencia

Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.

-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

Permite grabar audio desde un micrófono y transcribirlo mediante el modelo Whisper de OpenAI. Funciona como servidor MCP independiente y como extensión del agente de Goose AI.

  1. Features
    1. Installation
      1. Usage
        1. As a Standalone MCP Server
        2. Testing with MCP Inspector
        3. With Goose AI Agent
      2. Available Tools
        1. Whisper Models
          1. Requirements
            1. Configuration
              1. Troubleshooting
                1. Common Issues
              2. Contributing
                1. License

                  Related MCP Servers

                  • A
                    security
                    A
                    license
                    A
                    quality
                    A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
                    Last updated -
                    1
                    2
                    JavaScript
                    MIT License
                    • Linux
                    • Apple
                  • A
                    security
                    A
                    license
                    A
                    quality
                    MCP server for Synthesizer V AI Vocal Studio, which allows LLMs to create/edit vocal tracks e.g. adding lyrics to the melody.
                    Last updated -
                    6
                    Apache 2.0
                    • Apple
                  • -
                    security
                    -
                    license
                    -
                    quality
                    An MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.
                    Last updated -
                    1
                    JavaScript
                    MIT License
                  • A
                    security
                    A
                    license
                    A
                    quality
                    An official Model Context Protocol (MCP) server that enables AI clients to interact with ElevenLabs' Text to Speech and audio processing APIs, allowing for speech generation, voice cloning, audio transcription, and other audio-related tasks.
                    Last updated -
                    19
                    543
                    Python
                    MIT License
                    • Apple

                  View all related MCP servers

                  ID: xryde429jb