Servicio MCP de reconocimiento de voz

Este servicio proporciona capacidades de reconocimiento de voz y extracción de texto a través de los modos stdio y MCP.

Características

Reconocimiento de voz desde archivo
Reconocimiento de voz a partir de datos codificados en base64
Extracción de texto
Soporte para los modos stdio y MCP
Resultados del reconocimiento de voz estructurado

Related MCP server: Analytical MCP Server

Estructura del proyecto

voice_service.py - Implementación del servicio principal
stdio_server.py - punto de entrada del modo stdio
mcp_server.py - Punto de entrada del modo MCP
build.py - Script de compilación para ejecutables
build_exec.sh - Script de ejecución de compilación
test_*.sh - Scripts de prueba para diferentes funcionalidades

Instalación

Clonar el repositorio:

git clone https://github.com/AIO-2030/mcp_voice_identify.git
cd mcp_voice_identify

Instalar dependencias:

pip install -r requirements.txt

Configurar variables de entorno en .env :

API_URL=your_api_url
API_KEY=your_api_key

Uso

Modo stdio

Ejecutar el servicio:

python stdio_server.py

Enviar solicitudes JSON-RPC a través de stdin:

{
    "jsonrpc": "2.0",
    "method": "help",
    "params": {},
    "id": 1
}

O utilice el ejecutable:

./dist/voice_stdio

Modo MCP

Ejecutar el servicio:

python mcp_server.py

O utilice el ejecutable:

./dist/voice_mcp

Resultados del reconocimiento de voz

El servicio proporciona resultados de reconocimiento de voz estructurados. A continuación, se muestra un ejemplo del formato de respuesta:

Respuesta de la API original

{
    "jsonrpc": "2.0",
    "result": {
        "message": "input processed successfully",
        "results": "test test test",
        "label_result": "<|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>test test test"
    },
    "id": 1
}

Respuesta reestructurada

{
    "jsonrpc": "2.0",
    "result": {
        "message": "input processed successfully",
        "results": "test test test",
        "label_result": {
            "lan": "en",
            "emo": "unknown",
            "type": "speech",
            "speaker": "woitn",
            "text": "test test test"
        }
    },
    "id": 1
}

Campos de resultados de etiquetas

El campo label_result contiene la siguiente información estructurada:

Campo	Descripción	Valor de ejemplo
lan	Código de idioma	"en"
emo	Estado emocional	"desconocido"
tipo	Tipo de audio	"discurso"
vocero	Identificador del hablante	"woitn"
texto	Contenido de texto reconocido	"prueba, prueba, prueba"

Etiquetas especiales

El servicio reconoce y procesa las siguientes etiquetas especiales en la respuesta original:

<|en|> - Código de idioma
<|EMO_UNKNOWN|> - Estado emocional
<|Speech|> - Tipo de audio
<|woitn|> - Identificador del hablante

Construyendo ejecutables

Hacer que el script de compilación sea ejecutable:

chmod +x build_exec.sh

Construir ejecutable en modo stdio:

./build_exec.sh

Construir ejecutable en modo MCP:

./build_exec.sh mcp

Los ejecutables se crearán en:

Modo stdio: dist/voice_stdio
Modo MCP: dist/voice_mcp

Pruebas

Ejecute los scripts de prueba:

chmod +x test_*.sh
./test_help.sh
./test_voice_file.sh
./test_voice_base64.sh

Licencia

Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.

This server cannot be installed

-

security - not tested

A

license - permissive license

-

quality - not tested

How are these scores calculated?

Resources

GitHub Repository

Need Help?

Report Issue

Related Servers

Voice Recognition MCP Service