MCP-Dienst zur Spracherkennung
Dieser Dienst bietet Spracherkennungs- und Textextraktionsfunktionen sowohl im Standard- als auch im MCP-Modus.
Merkmale
- Spracherkennung aus Datei
- Spracherkennung aus Base64-kodierten Daten
- Textextraktion
- Unterstützung für Standard- und MCP-Modus
- Strukturierte Spracherkennungsergebnisse
Projektstruktur
voice_service.py
– Implementierung des Kerndienstesstdio_server.py
– Einstiegspunkt für den Stdio-Modusmcp_server.py
- Einstiegspunkt für den MCP-Modusbuild.py
- Build-Skript für ausführbare Dateienbuild_exec.sh
- Build-Ausführungsskripttest_*.sh
- Testskripte für verschiedene Funktionalitäten
Installation
- Klonen Sie das Repository:
- Installieren Sie Abhängigkeiten:
- Richten Sie Umgebungsvariablen in
.env
ein:
Verwendung
stdio-Modus
- Führen Sie den Dienst aus:
- Senden Sie JSON-RPC-Anfragen über stdin:
- Oder verwenden Sie die ausführbare Datei:
MCP-Modus
- Führen Sie den Dienst aus:
- Oder verwenden Sie die ausführbare Datei:
Ergebnisse der Spracherkennung
Der Dienst liefert strukturierte Spracherkennungsergebnisse. Hier ist ein Beispiel für das Antwortformat:
Ursprüngliche API-Antwort
Umstrukturierte Antwort
Ergebnisfelder beschriften
Das Feld label_result
enthält die folgenden strukturierten Informationen:
Feld | Beschreibung | Beispielwert |
---|---|---|
lan | Sprachcode | "en" |
Emo | Emotionaler Zustand | "unbekannt" |
Typ | Audiotyp | "Rede" |
Lautsprecher | Sprecherkennung | "woitn" |
Text | Erkannter Textinhalt | "Test, Test, Test" |
Spezialetiketten
Der Dienst erkennt und verarbeitet die folgenden speziellen Bezeichnungen in der Originalantwort:
<|en|>
- Sprachcode<|EMO_UNKNOWN|>
– Emotionaler Zustand<|Speech|>
- Audiotyp<|woitn|>
– Sprecherkennung
Erstellen ausführbarer Dateien
- Machen Sie das Build-Skript ausführbar:
- Ausführbare Datei im stdio-Modus erstellen:
- Ausführbare Datei im MCP-Modus erstellen:
Die ausführbaren Dateien werden erstellt unter:
- stdio-Modus:
dist/voice_stdio
- MCP-Modus:
dist/voice_mcp
Testen
Führen Sie die Testskripte aus:
Lizenz
Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der Datei LICENSE.
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Bietet Spracherkennungs- und Textextraktionsfunktionen mit Unterstützung für den Standard- und MCP-Modus, verarbeitet Audiodateien oder Base64-codierte Daten und gibt strukturierte Ergebnisse mit Informationen zu Sprache, Emotionen und Sprecher zurück.
Related MCP Servers
- AsecurityAlicenseAqualityEnables text extraction from web pages and PDFs, and execution of predefined commands, enhancing content processing and automation capabilities.Last updated -3TypeScriptMIT License
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -2Python
- -securityAlicense-qualityProvides advanced analytical, research, and natural language processing capabilities through a Model Context Protocol server, enabling dataset analysis, decision analysis, and enhanced NLP features like entity recognition and fact extraction.Last updated -2TypeScriptMIT License
- -securityFlicense-qualityIntegrates with Claude and Cursor using the Model Context Protocol to generate voice audio from text using Resemble AI's voices.Last updated -Python