MCP-Dienst zur Spracherkennung
Dieser Dienst bietet Spracherkennungs- und Textextraktionsfunktionen sowohl im Standard- als auch im MCP-Modus.
Merkmale
Spracherkennung aus Datei
Spracherkennung aus Base64-kodierten Daten
Textextraktion
Unterstützung für Standard- und MCP-Modus
Strukturierte Spracherkennungsergebnisse
Related MCP server: Analytical MCP Server
Projektstruktur
voice_service.py– Implementierung des Kerndienstesstdio_server.py– Einstiegspunkt für den Stdio-Modusmcp_server.py- Einstiegspunkt für den MCP-Modusbuild.py- Build-Skript für ausführbare Dateienbuild_exec.sh- Build-Ausführungsskripttest_*.sh- Testskripte für verschiedene Funktionalitäten
Installation
Klonen Sie das Repository:
Installieren Sie Abhängigkeiten:
Richten Sie Umgebungsvariablen in
.envein:
Verwendung
stdio-Modus
Führen Sie den Dienst aus:
Senden Sie JSON-RPC-Anfragen über stdin:
Oder verwenden Sie die ausführbare Datei:
MCP-Modus
Führen Sie den Dienst aus:
Oder verwenden Sie die ausführbare Datei:
Ergebnisse der Spracherkennung
Der Dienst liefert strukturierte Spracherkennungsergebnisse. Hier ist ein Beispiel für das Antwortformat:
Ursprüngliche API-Antwort
Umstrukturierte Antwort
Ergebnisfelder beschriften
Das Feld label_result enthält die folgenden strukturierten Informationen:
Feld | Beschreibung | Beispielwert |
lan | Sprachcode | "en" |
Emo | Emotionaler Zustand | "unbekannt" |
Typ | Audiotyp | "Rede" |
Lautsprecher | Sprecherkennung | "woitn" |
Text | Erkannter Textinhalt | "Test, Test, Test" |
Spezialetiketten
Der Dienst erkennt und verarbeitet die folgenden speziellen Bezeichnungen in der Originalantwort:
<|en|>- Sprachcode<|EMO_UNKNOWN|>– Emotionaler Zustand<|Speech|>- Audiotyp<|woitn|>– Sprecherkennung
Erstellen ausführbarer Dateien
Machen Sie das Build-Skript ausführbar:
Ausführbare Datei im stdio-Modus erstellen:
Ausführbare Datei im MCP-Modus erstellen:
Die ausführbaren Dateien werden erstellt unter:
stdio-Modus:
dist/voice_stdioMCP-Modus:
dist/voice_mcp
Testen
Führen Sie die Testskripte aus:
Lizenz
Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der Datei LICENSE.