Servicio MCP de reconocimiento de voz
Este servicio proporciona capacidades de reconocimiento de voz y extracción de texto a través de los modos stdio y MCP.
Características
- Reconocimiento de voz desde archivo
- Reconocimiento de voz a partir de datos codificados en base64
- Extracción de texto
- Soporte para los modos stdio y MCP
- Resultados del reconocimiento de voz estructurado
Estructura del proyecto
voice_service.py
- Implementación del servicio principalstdio_server.py
- punto de entrada del modo stdiomcp_server.py
- Punto de entrada del modo MCPbuild.py
- Script de compilación para ejecutablesbuild_exec.sh
- Script de ejecución de compilacióntest_*.sh
- Scripts de prueba para diferentes funcionalidades
Instalación
- Clonar el repositorio:
- Instalar dependencias:
- Configurar variables de entorno en
.env
:
Uso
Modo stdio
- Ejecutar el servicio:
- Enviar solicitudes JSON-RPC a través de stdin:
- O utilice el ejecutable:
Modo MCP
- Ejecutar el servicio:
- O utilice el ejecutable:
Resultados del reconocimiento de voz
El servicio proporciona resultados de reconocimiento de voz estructurados. A continuación, se muestra un ejemplo del formato de respuesta:
Respuesta de la API original
Respuesta reestructurada
Campos de resultados de etiquetas
El campo label_result
contiene la siguiente información estructurada:
Campo | Descripción | Valor de ejemplo |
---|---|---|
lan | Código de idioma | "en" |
emo | Estado emocional | "desconocido" |
tipo | Tipo de audio | "discurso" |
vocero | Identificador del hablante | "woitn" |
texto | Contenido de texto reconocido | "prueba, prueba, prueba" |
Etiquetas especiales
El servicio reconoce y procesa las siguientes etiquetas especiales en la respuesta original:
<|en|>
- Código de idioma<|EMO_UNKNOWN|>
- Estado emocional<|Speech|>
- Tipo de audio<|woitn|>
- Identificador del hablante
Construyendo ejecutables
- Hacer que el script de compilación sea ejecutable:
- Construir ejecutable en modo stdio:
- Construir ejecutable en modo MCP:
Los ejecutables se crearán en:
- Modo stdio:
dist/voice_stdio
- Modo MCP:
dist/voice_mcp
Pruebas
Ejecute los scripts de prueba:
Licencia
Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Proporciona capacidades de reconocimiento de voz y extracción de texto con soporte para los modos stdio y MCP, procesando archivos de audio o datos codificados en base64 y devolviendo resultados estructurados con información de idioma, emoción y hablante.
Related MCP Servers
- AsecurityAlicenseAqualityEnables text extraction from web pages and PDFs, and execution of predefined commands, enhancing content processing and automation capabilities.Last updated -3TypeScriptMIT License
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -2Python
- -securityAlicense-qualityProvides advanced analytical, research, and natural language processing capabilities through a Model Context Protocol server, enabling dataset analysis, decision analysis, and enhanced NLP features like entity recognition and fact extraction.Last updated -2TypeScriptMIT License
- -securityFlicense-qualityIntegrates with Claude and Cursor using the Model Context Protocol to generate voice audio from text using Resemble AI's voices.Last updated -Python