Servicio MCP de reconocimiento de voz
Este servicio proporciona capacidades de reconocimiento de voz y extracción de texto a través de los modos stdio y MCP.
Características
- Reconocimiento de voz desde archivo
- Reconocimiento de voz a partir de datos codificados en base64
- Extracción de texto
- Soporte para los modos stdio y MCP
- Resultados del reconocimiento de voz estructurado
Estructura del proyecto
voice_service.py
- Implementación del servicio principalstdio_server.py
- punto de entrada del modo stdiomcp_server.py
- Punto de entrada del modo MCPbuild.py
- Script de compilación para ejecutablesbuild_exec.sh
- Script de ejecución de compilacióntest_*.sh
- Scripts de prueba para diferentes funcionalidades
Instalación
- Clonar el repositorio:
- Instalar dependencias:
- Configurar variables de entorno en
.env
:
Uso
Modo stdio
- Ejecutar el servicio:
- Enviar solicitudes JSON-RPC a través de stdin:
- O utilice el ejecutable:
Modo MCP
- Ejecutar el servicio:
- O utilice el ejecutable:
Resultados del reconocimiento de voz
El servicio proporciona resultados de reconocimiento de voz estructurados. A continuación, se muestra un ejemplo del formato de respuesta:
Respuesta de la API original
Respuesta reestructurada
Campos de resultados de etiquetas
El campo label_result
contiene la siguiente información estructurada:
Campo | Descripción | Valor de ejemplo |
---|---|---|
lan | Código de idioma | "en" |
emo | Estado emocional | "desconocido" |
tipo | Tipo de audio | "discurso" |
vocero | Identificador del hablante | "woitn" |
texto | Contenido de texto reconocido | "prueba, prueba, prueba" |
Etiquetas especiales
El servicio reconoce y procesa las siguientes etiquetas especiales en la respuesta original:
<|en|>
- Código de idioma<|EMO_UNKNOWN|>
- Estado emocional<|Speech|>
- Tipo de audio<|woitn|>
- Identificador del hablante
Construyendo ejecutables
- Hacer que el script de compilación sea ejecutable:
- Construir ejecutable en modo stdio:
- Construir ejecutable en modo MCP:
Los ejecutables se crearán en:
- Modo stdio:
dist/voice_stdio
- Modo MCP:
dist/voice_mcp
Pruebas
Ejecute los scripts de prueba:
Licencia
Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Proporciona capacidades de reconocimiento de voz y extracción de texto con soporte para los modos stdio y MCP, procesando archivos de audio o datos codificados en base64 y devolviendo resultados estructurados con información de idioma, emoción y hablante.
Related MCP Servers
- -securityAlicense-qualityA Goose MCP extension providing voice interaction with modern audio visualization, allowing users to communicate with Goose through speech rather than text.Last updated -36PythonMIT License
- AsecurityAlicenseAqualityMCP to analyse local audio file.Last updated -810PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.Last updated -TypeScriptMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License