Servicio MCP de reconocimiento de voz
Este servicio proporciona capacidades de reconocimiento de voz y extracción de texto a través de los modos stdio y MCP.
Características
Reconocimiento de voz desde archivo
Reconocimiento de voz a partir de datos codificados en base64
Extracción de texto
Soporte para los modos stdio y MCP
Resultados del reconocimiento de voz estructurado
Related MCP server: Analytical MCP Server
Estructura del proyecto
voice_service.py- Implementación del servicio principalstdio_server.py- punto de entrada del modo stdiomcp_server.py- Punto de entrada del modo MCPbuild.py- Script de compilación para ejecutablesbuild_exec.sh- Script de ejecución de compilacióntest_*.sh- Scripts de prueba para diferentes funcionalidades
Instalación
Clonar el repositorio:
Instalar dependencias:
Configurar variables de entorno en
.env:
Uso
Modo stdio
Ejecutar el servicio:
Enviar solicitudes JSON-RPC a través de stdin:
O utilice el ejecutable:
Modo MCP
Ejecutar el servicio:
O utilice el ejecutable:
Resultados del reconocimiento de voz
El servicio proporciona resultados de reconocimiento de voz estructurados. A continuación, se muestra un ejemplo del formato de respuesta:
Respuesta de la API original
Respuesta reestructurada
Campos de resultados de etiquetas
El campo label_result contiene la siguiente información estructurada:
Campo | Descripción | Valor de ejemplo |
lan | Código de idioma | "en" |
emo | Estado emocional | "desconocido" |
tipo | Tipo de audio | "discurso" |
vocero | Identificador del hablante | "woitn" |
texto | Contenido de texto reconocido | "prueba, prueba, prueba" |
Etiquetas especiales
El servicio reconoce y procesa las siguientes etiquetas especiales en la respuesta original:
<|en|>- Código de idioma<|EMO_UNKNOWN|>- Estado emocional<|Speech|>- Tipo de audio<|woitn|>- Identificador del hablante
Construyendo ejecutables
Hacer que el script de compilación sea ejecutable:
Construir ejecutable en modo stdio:
Construir ejecutable en modo MCP:
Los ejecutables se crearán en:
Modo stdio:
dist/voice_stdioModo MCP:
dist/voice_mcp
Pruebas
Ejecute los scripts de prueba:
Licencia
Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.