MCP-Dienst zur Spracherkennung
Dieser Dienst bietet Spracherkennungs- und Textextraktionsfunktionen sowohl im Standard- als auch im MCP-Modus.
Merkmale
- Spracherkennung aus Datei
- Spracherkennung aus Base64-kodierten Daten
- Textextraktion
- Unterstützung für Standard- und MCP-Modus
- Strukturierte Spracherkennungsergebnisse
Projektstruktur
voice_service.py
– Implementierung des Kerndienstesstdio_server.py
– Einstiegspunkt für den Stdio-Modusmcp_server.py
- Einstiegspunkt für den MCP-Modusbuild.py
- Build-Skript für ausführbare Dateienbuild_exec.sh
- Build-Ausführungsskripttest_*.sh
- Testskripte für verschiedene Funktionalitäten
Installation
- Klonen Sie das Repository:
- Installieren Sie Abhängigkeiten:
- Richten Sie Umgebungsvariablen in
.env
ein:
Verwendung
stdio-Modus
- Führen Sie den Dienst aus:
- Senden Sie JSON-RPC-Anfragen über stdin:
- Oder verwenden Sie die ausführbare Datei:
MCP-Modus
- Führen Sie den Dienst aus:
- Oder verwenden Sie die ausführbare Datei:
Ergebnisse der Spracherkennung
Der Dienst liefert strukturierte Spracherkennungsergebnisse. Hier ist ein Beispiel für das Antwortformat:
Ursprüngliche API-Antwort
Umstrukturierte Antwort
Ergebnisfelder beschriften
Das Feld label_result
enthält die folgenden strukturierten Informationen:
Feld | Beschreibung | Beispielwert |
---|---|---|
lan | Sprachcode | "en" |
Emo | Emotionaler Zustand | "unbekannt" |
Typ | Audiotyp | "Rede" |
Lautsprecher | Sprecherkennung | "woitn" |
Text | Erkannter Textinhalt | "Test, Test, Test" |
Spezialetiketten
Der Dienst erkennt und verarbeitet die folgenden speziellen Bezeichnungen in der Originalantwort:
<|en|>
- Sprachcode<|EMO_UNKNOWN|>
– Emotionaler Zustand<|Speech|>
- Audiotyp<|woitn|>
– Sprecherkennung
Erstellen ausführbarer Dateien
- Machen Sie das Build-Skript ausführbar:
- Ausführbare Datei im stdio-Modus erstellen:
- Ausführbare Datei im MCP-Modus erstellen:
Die ausführbaren Dateien werden erstellt unter:
- stdio-Modus:
dist/voice_stdio
- MCP-Modus:
dist/voice_mcp
Testen
Führen Sie die Testskripte aus:
Lizenz
Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der Datei LICENSE.
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Bietet Spracherkennungs- und Textextraktionsfunktionen mit Unterstützung für den Standard- und MCP-Modus, verarbeitet Audiodateien oder Base64-codierte Daten und gibt strukturierte Ergebnisse mit Informationen zu Sprache, Emotionen und Sprecher zurück.
Related MCP Servers
- -securityAlicense-qualityA Goose MCP extension providing voice interaction with modern audio visualization, allowing users to communicate with Goose through speech rather than text.Last updated -36PythonMIT License
- AsecurityAlicenseAqualityMCP to analyse local audio file.Last updated -810PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.Last updated -TypeScriptMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License