Skip to main content
Glama

Voice Recognition MCP Service

by yangsenessa

Servicio MCP de reconocimiento de voz

Este servicio proporciona capacidades de reconocimiento de voz y extracción de texto a través de los modos stdio y MCP.

Características

  • Reconocimiento de voz desde archivo
  • Reconocimiento de voz a partir de datos codificados en base64
  • Extracción de texto
  • Soporte para los modos stdio y MCP
  • Resultados del reconocimiento de voz estructurado

Estructura del proyecto

  • voice_service.py - Implementación del servicio principal
  • stdio_server.py - punto de entrada del modo stdio
  • mcp_server.py - Punto de entrada del modo MCP
  • build.py - Script de compilación para ejecutables
  • build_exec.sh - Script de ejecución de compilación
  • test_*.sh - Scripts de prueba para diferentes funcionalidades

Instalación

  1. Clonar el repositorio:
git clone https://github.com/AIO-2030/mcp_voice_identify.git cd mcp_voice_identify
  1. Instalar dependencias:
pip install -r requirements.txt
  1. Configurar variables de entorno en .env :
API_URL=your_api_url API_KEY=your_api_key

Uso

Modo stdio

  1. Ejecutar el servicio:
python stdio_server.py
  1. Enviar solicitudes JSON-RPC a través de stdin:
{ "jsonrpc": "2.0", "method": "help", "params": {}, "id": 1 }
  1. O utilice el ejecutable:
./dist/voice_stdio

Modo MCP

  1. Ejecutar el servicio:
python mcp_server.py
  1. O utilice el ejecutable:
./dist/voice_mcp

Resultados del reconocimiento de voz

El servicio proporciona resultados de reconocimiento de voz estructurados. A continuación, se muestra un ejemplo del formato de respuesta:

Respuesta de la API original

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": "<|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>test test test" }, "id": 1 }

Respuesta reestructurada

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": { "lan": "en", "emo": "unknown", "type": "speech", "speaker": "woitn", "text": "test test test" } }, "id": 1 }

Campos de resultados de etiquetas

El campo label_result contiene la siguiente información estructurada:

CampoDescripciónValor de ejemplo
lanCódigo de idioma"en"
emoEstado emocional"desconocido"
tipoTipo de audio"discurso"
voceroIdentificador del hablante"woitn"
textoContenido de texto reconocido"prueba, prueba, prueba"

Etiquetas especiales

El servicio reconoce y procesa las siguientes etiquetas especiales en la respuesta original:

  • <|en|> - Código de idioma
  • <|EMO_UNKNOWN|> - Estado emocional
  • <|Speech|> - Tipo de audio
  • <|woitn|> - Identificador del hablante

Construyendo ejecutables

  1. Hacer que el script de compilación sea ejecutable:
chmod +x build_exec.sh
  1. Construir ejecutable en modo stdio:
./build_exec.sh
  1. Construir ejecutable en modo MCP:
./build_exec.sh mcp

Los ejecutables se crearán en:

  • Modo stdio: dist/voice_stdio
  • Modo MCP: dist/voice_mcp

Pruebas

Ejecute los scripts de prueba:

chmod +x test_*.sh ./test_help.sh ./test_voice_file.sh ./test_voice_base64.sh

Licencia

Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.

-
security - not tested
A
license - permissive license
-
quality - not tested

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Proporciona capacidades de reconocimiento de voz y extracción de texto con soporte para los modos stdio y MCP, procesando archivos de audio o datos codificados en base64 y devolviendo resultados estructurados con información de idioma, emoción y hablante.

  1. Características
    1. Estructura del proyecto
      1. Instalación
        1. Uso
          1. Modo stdio
          2. Modo MCP
        2. Resultados del reconocimiento de voz
          1. Respuesta de la API original
          2. Respuesta reestructurada
          3. Campos de resultados de etiquetas
          4. Etiquetas especiales
        3. Construyendo ejecutables
          1. Pruebas
            1. Licencia

              Related MCP Servers

              • -
                security
                A
                license
                -
                quality
                A Goose MCP extension providing voice interaction with modern audio visualization, allowing users to communicate with Goose through speech rather than text.
                Last updated -
                36
                Python
                MIT License
                • Linux
                • Apple
              • -
                security
                A
                license
                -
                quality
                A Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.
                Last updated -
                TypeScript
                MIT License
              • A
                security
                A
                license
                A
                quality
                A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
                Last updated -
                1
                2
                JavaScript
                MIT License
                • Linux
                • Apple

              View all related MCP servers

              MCP directory API

              We provide all the information about MCP servers via our MCP API.

              curl -X GET 'https://glama.ai/api/mcp/v1/servers/yangsenessa/mcp_voice_identify'

              If you have feedback or need assistance with the MCP directory API, please join our Discord server