MCP-Dienst zur Spracherkennung

Dieser Dienst bietet Spracherkennungs- und Textextraktionsfunktionen sowohl im Standard- als auch im MCP-Modus.

Merkmale

Spracherkennung aus Datei
Spracherkennung aus Base64-kodierten Daten
Textextraktion
Unterstützung für Standard- und MCP-Modus
Strukturierte Spracherkennungsergebnisse

Related MCP server: Analytical MCP Server

Projektstruktur

voice_service.py – Implementierung des Kerndienstes
stdio_server.py – Einstiegspunkt für den Stdio-Modus
mcp_server.py - Einstiegspunkt für den MCP-Modus
build.py - Build-Skript für ausführbare Dateien
build_exec.sh - Build-Ausführungsskript
test_*.sh - Testskripte für verschiedene Funktionalitäten

Installation

Klonen Sie das Repository:

git clone https://github.com/AIO-2030/mcp_voice_identify.git cd mcp_voice_identify

Installieren Sie Abhängigkeiten:

pip install -r requirements.txt

Richten Sie Umgebungsvariablen in .env ein:

API_URL=your_api_url API_KEY=your_api_key

Verwendung

stdio-Modus

Führen Sie den Dienst aus:

python stdio_server.py

Senden Sie JSON-RPC-Anfragen über stdin:

{ "jsonrpc": "2.0", "method": "help", "params": {}, "id": 1 }

Oder verwenden Sie die ausführbare Datei:

./dist/voice_stdio

MCP-Modus

Führen Sie den Dienst aus:

python mcp_server.py

Oder verwenden Sie die ausführbare Datei:

./dist/voice_mcp

Ergebnisse der Spracherkennung

Der Dienst liefert strukturierte Spracherkennungsergebnisse. Hier ist ein Beispiel für das Antwortformat:

Ursprüngliche API-Antwort

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": "<|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>test test test" }, "id": 1 }

Umstrukturierte Antwort

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": { "lan": "en", "emo": "unknown", "type": "speech", "speaker": "woitn", "text": "test test test" } }, "id": 1 }

Ergebnisfelder beschriften

Das Feld label_result enthält die folgenden strukturierten Informationen:

Feld	Beschreibung	Beispielwert
lan	Sprachcode	"en"
Emo	Emotionaler Zustand	"unbekannt"
Typ	Audiotyp	"Rede"
Lautsprecher	Sprecherkennung	"woitn"
Text	Erkannter Textinhalt	"Test, Test, Test"

Spezialetiketten

Der Dienst erkennt und verarbeitet die folgenden speziellen Bezeichnungen in der Originalantwort:

<|en|> - Sprachcode
<|EMO_UNKNOWN|> – Emotionaler Zustand
<|Speech|> - Audiotyp
<|woitn|> – Sprecherkennung

Erstellen ausführbarer Dateien

Machen Sie das Build-Skript ausführbar:

chmod +x build_exec.sh

Ausführbare Datei im stdio-Modus erstellen:

./build_exec.sh

Ausführbare Datei im MCP-Modus erstellen:

./build_exec.sh mcp

Die ausführbaren Dateien werden erstellt unter:

stdio-Modus: dist/voice_stdio
MCP-Modus: dist/voice_mcp

Testen

Führen Sie die Testskripte aus:

chmod +x test_*.sh ./test_help.sh ./test_voice_file.sh ./test_voice_base64.sh

Lizenz

Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der Datei LICENSE.

This server cannot be installed

-

security - not tested

A

license - permissive license

-

quality - not tested

How are these scores calculated?

Resources

GitHub Repository

Need Help?

Report Issue

Related Servers

Voice Recognition MCP Service