Skip to main content
Glama
yangsenessa

Voice Recognition MCP Service

by yangsenessa

Servicio MCP de reconocimiento de voz

Este servicio proporciona capacidades de reconocimiento de voz y extracción de texto a través de los modos stdio y MCP.

Características

  • Reconocimiento de voz desde archivo

  • Reconocimiento de voz a partir de datos codificados en base64

  • Extracción de texto

  • Soporte para los modos stdio y MCP

  • Resultados del reconocimiento de voz estructurado

Related MCP server: Analytical MCP Server

Estructura del proyecto

  • voice_service.py - Implementación del servicio principal

  • stdio_server.py - punto de entrada del modo stdio

  • mcp_server.py - Punto de entrada del modo MCP

  • build.py - Script de compilación para ejecutables

  • build_exec.sh - Script de ejecución de compilación

  • test_*.sh - Scripts de prueba para diferentes funcionalidades

Instalación

  1. Clonar el repositorio:

git clone https://github.com/AIO-2030/mcp_voice_identify.git cd mcp_voice_identify
  1. Instalar dependencias:

pip install -r requirements.txt
  1. Configurar variables de entorno en .env :

API_URL=your_api_url API_KEY=your_api_key

Uso

Modo stdio

  1. Ejecutar el servicio:

python stdio_server.py
  1. Enviar solicitudes JSON-RPC a través de stdin:

{ "jsonrpc": "2.0", "method": "help", "params": {}, "id": 1 }
  1. O utilice el ejecutable:

./dist/voice_stdio

Modo MCP

  1. Ejecutar el servicio:

python mcp_server.py
  1. O utilice el ejecutable:

./dist/voice_mcp

Resultados del reconocimiento de voz

El servicio proporciona resultados de reconocimiento de voz estructurados. A continuación, se muestra un ejemplo del formato de respuesta:

Respuesta de la API original

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": "<|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>test test test" }, "id": 1 }

Respuesta reestructurada

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": { "lan": "en", "emo": "unknown", "type": "speech", "speaker": "woitn", "text": "test test test" } }, "id": 1 }

Campos de resultados de etiquetas

El campo label_result contiene la siguiente información estructurada:

Campo

Descripción

Valor de ejemplo

lan

Código de idioma

"en"

emo

Estado emocional

"desconocido"

tipo

Tipo de audio

"discurso"

vocero

Identificador del hablante

"woitn"

texto

Contenido de texto reconocido

"prueba, prueba, prueba"

Etiquetas especiales

El servicio reconoce y procesa las siguientes etiquetas especiales en la respuesta original:

  • <|en|> - Código de idioma

  • <|EMO_UNKNOWN|> - Estado emocional

  • <|Speech|> - Tipo de audio

  • <|woitn|> - Identificador del hablante

Construyendo ejecutables

  1. Hacer que el script de compilación sea ejecutable:

chmod +x build_exec.sh
  1. Construir ejecutable en modo stdio:

./build_exec.sh
  1. Construir ejecutable en modo MCP:

./build_exec.sh mcp

Los ejecutables se crearán en:

  • Modo stdio: dist/voice_stdio

  • Modo MCP: dist/voice_mcp

Pruebas

Ejecute los scripts de prueba:

chmod +x test_*.sh ./test_help.sh ./test_voice_file.sh ./test_voice_base64.sh

Licencia

Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.

-
security - not tested
A
license - permissive license
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/yangsenessa/mcp_voice_identify'

If you have feedback or need assistance with the MCP directory API, please join our Discord server