Skip to main content
Glama

Voice Recognition MCP Service

by yangsenessa

Servicio MCP de reconocimiento de voz

Este servicio proporciona capacidades de reconocimiento de voz y extracción de texto a través de los modos stdio y MCP.

Características

  • Reconocimiento de voz desde archivo
  • Reconocimiento de voz a partir de datos codificados en base64
  • Extracción de texto
  • Soporte para los modos stdio y MCP
  • Resultados del reconocimiento de voz estructurado

Estructura del proyecto

  • voice_service.py - Implementación del servicio principal
  • stdio_server.py - punto de entrada del modo stdio
  • mcp_server.py - Punto de entrada del modo MCP
  • build.py - Script de compilación para ejecutables
  • build_exec.sh - Script de ejecución de compilación
  • test_*.sh - Scripts de prueba para diferentes funcionalidades

Instalación

  1. Clonar el repositorio:
git clone https://github.com/AIO-2030/mcp_voice_identify.git cd mcp_voice_identify
  1. Instalar dependencias:
pip install -r requirements.txt
  1. Configurar variables de entorno en .env :
API_URL=your_api_url API_KEY=your_api_key

Uso

Modo stdio

  1. Ejecutar el servicio:
python stdio_server.py
  1. Enviar solicitudes JSON-RPC a través de stdin:
{ "jsonrpc": "2.0", "method": "help", "params": {}, "id": 1 }
  1. O utilice el ejecutable:
./dist/voice_stdio

Modo MCP

  1. Ejecutar el servicio:
python mcp_server.py
  1. O utilice el ejecutable:
./dist/voice_mcp

Resultados del reconocimiento de voz

El servicio proporciona resultados de reconocimiento de voz estructurados. A continuación, se muestra un ejemplo del formato de respuesta:

Respuesta de la API original

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": "<|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>test test test" }, "id": 1 }

Respuesta reestructurada

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": { "lan": "en", "emo": "unknown", "type": "speech", "speaker": "woitn", "text": "test test test" } }, "id": 1 }

Campos de resultados de etiquetas

El campo label_result contiene la siguiente información estructurada:

CampoDescripciónValor de ejemplo
lanCódigo de idioma"en"
emoEstado emocional"desconocido"
tipoTipo de audio"discurso"
voceroIdentificador del hablante"woitn"
textoContenido de texto reconocido"prueba, prueba, prueba"

Etiquetas especiales

El servicio reconoce y procesa las siguientes etiquetas especiales en la respuesta original:

  • <|en|> - Código de idioma
  • <|EMO_UNKNOWN|> - Estado emocional
  • <|Speech|> - Tipo de audio
  • <|woitn|> - Identificador del hablante

Construyendo ejecutables

  1. Hacer que el script de compilación sea ejecutable:
chmod +x build_exec.sh
  1. Construir ejecutable en modo stdio:
./build_exec.sh
  1. Construir ejecutable en modo MCP:
./build_exec.sh mcp

Los ejecutables se crearán en:

  • Modo stdio: dist/voice_stdio
  • Modo MCP: dist/voice_mcp

Pruebas

Ejecute los scripts de prueba:

chmod +x test_*.sh ./test_help.sh ./test_voice_file.sh ./test_voice_base64.sh

Licencia

Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.

-
security - not tested
A
license - permissive license
-
quality - not tested

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Proporciona capacidades de reconocimiento de voz y extracción de texto con soporte para los modos stdio y MCP, procesando archivos de audio o datos codificados en base64 y devolviendo resultados estructurados con información de idioma, emoción y hablante.

  1. Características
    1. Estructura del proyecto
      1. Instalación
        1. Uso
          1. Modo stdio
          2. Modo MCP
        2. Resultados del reconocimiento de voz
          1. Respuesta de la API original
          2. Respuesta reestructurada
          3. Campos de resultados de etiquetas
          4. Etiquetas especiales
        3. Construyendo ejecutables
          1. Pruebas
            1. Licencia

              Related MCP Servers

              • A
                security
                A
                license
                A
                quality
                Enables text extraction from web pages and PDFs, and execution of predefined commands, enhancing content processing and automation capabilities.
                Last updated -
                3
                TypeScript
                MIT License
              • -
                security
                F
                license
                -
                quality
                Provides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.
                Last updated -
                2
                Python
              • -
                security
                A
                license
                -
                quality
                Provides advanced analytical, research, and natural language processing capabilities through a Model Context Protocol server, enabling dataset analysis, decision analysis, and enhanced NLP features like entity recognition and fact extraction.
                Last updated -
                2
                TypeScript
                MIT License
                • Linux
                • Apple

              View all related MCP servers

              MCP directory API

              We provide all the information about MCP servers via our MCP API.

              curl -X GET 'https://glama.ai/api/mcp/v1/servers/yangsenessa/mcp_voice_identify'

              If you have feedback or need assistance with the MCP directory API, please join our Discord server