Skip to main content
Glama
yangsenessa

Voice Recognition MCP Service

by yangsenessa

MCP-Dienst zur Spracherkennung

Dieser Dienst bietet Spracherkennungs- und Textextraktionsfunktionen sowohl im Standard- als auch im MCP-Modus.

Merkmale

  • Spracherkennung aus Datei

  • Spracherkennung aus Base64-kodierten Daten

  • Textextraktion

  • Unterstützung für Standard- und MCP-Modus

  • Strukturierte Spracherkennungsergebnisse

Related MCP server: Analytical MCP Server

Projektstruktur

  • voice_service.py – Implementierung des Kerndienstes

  • stdio_server.py – Einstiegspunkt für den Stdio-Modus

  • mcp_server.py - Einstiegspunkt für den MCP-Modus

  • build.py - Build-Skript für ausführbare Dateien

  • build_exec.sh - Build-Ausführungsskript

  • test_*.sh - Testskripte für verschiedene Funktionalitäten

Installation

  1. Klonen Sie das Repository:

git clone https://github.com/AIO-2030/mcp_voice_identify.git cd mcp_voice_identify
  1. Installieren Sie Abhängigkeiten:

pip install -r requirements.txt
  1. Richten Sie Umgebungsvariablen in .env ein:

API_URL=your_api_url API_KEY=your_api_key

Verwendung

stdio-Modus

  1. Führen Sie den Dienst aus:

python stdio_server.py
  1. Senden Sie JSON-RPC-Anfragen über stdin:

{ "jsonrpc": "2.0", "method": "help", "params": {}, "id": 1 }
  1. Oder verwenden Sie die ausführbare Datei:

./dist/voice_stdio

MCP-Modus

  1. Führen Sie den Dienst aus:

python mcp_server.py
  1. Oder verwenden Sie die ausführbare Datei:

./dist/voice_mcp

Ergebnisse der Spracherkennung

Der Dienst liefert strukturierte Spracherkennungsergebnisse. Hier ist ein Beispiel für das Antwortformat:

Ursprüngliche API-Antwort

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": "<|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>test test test" }, "id": 1 }

Umstrukturierte Antwort

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": { "lan": "en", "emo": "unknown", "type": "speech", "speaker": "woitn", "text": "test test test" } }, "id": 1 }

Ergebnisfelder beschriften

Das Feld label_result enthält die folgenden strukturierten Informationen:

Feld

Beschreibung

Beispielwert

lan

Sprachcode

"en"

Emo

Emotionaler Zustand

"unbekannt"

Typ

Audiotyp

"Rede"

Lautsprecher

Sprecherkennung

"woitn"

Text

Erkannter Textinhalt

"Test, Test, Test"

Spezialetiketten

Der Dienst erkennt und verarbeitet die folgenden speziellen Bezeichnungen in der Originalantwort:

  • <|en|> - Sprachcode

  • <|EMO_UNKNOWN|> – Emotionaler Zustand

  • <|Speech|> - Audiotyp

  • <|woitn|> – Sprecherkennung

Erstellen ausführbarer Dateien

  1. Machen Sie das Build-Skript ausführbar:

chmod +x build_exec.sh
  1. Ausführbare Datei im stdio-Modus erstellen:

./build_exec.sh
  1. Ausführbare Datei im MCP-Modus erstellen:

./build_exec.sh mcp

Die ausführbaren Dateien werden erstellt unter:

  • stdio-Modus: dist/voice_stdio

  • MCP-Modus: dist/voice_mcp

Testen

Führen Sie die Testskripte aus:

chmod +x test_*.sh ./test_help.sh ./test_voice_file.sh ./test_voice_base64.sh

Lizenz

Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der Datei LICENSE.

-
security - not tested
A
license - permissive license
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/yangsenessa/mcp_voice_identify'

If you have feedback or need assistance with the MCP directory API, please join our Discord server