MCP-Dienst zur Spracherkennung
Dieser Dienst bietet Spracherkennungs- und Textextraktionsfunktionen sowohl im Standard- als auch im MCP-Modus.
Merkmale
Spracherkennung aus Datei
Spracherkennung aus Base64-kodierten Daten
Textextraktion
Unterstützung für Standard- und MCP-Modus
Strukturierte Spracherkennungsergebnisse
Projektstruktur
voice_service.py– Implementierung des Kerndienstesstdio_server.py– Einstiegspunkt für den Stdio-Modusmcp_server.py- Einstiegspunkt für den MCP-Modusbuild.py- Build-Skript für ausführbare Dateienbuild_exec.sh- Build-Ausführungsskripttest_*.sh- Testskripte für verschiedene Funktionalitäten
Installation
Klonen Sie das Repository:
Installieren Sie Abhängigkeiten:
Richten Sie Umgebungsvariablen in
.envein:
Verwendung
stdio-Modus
Führen Sie den Dienst aus:
Senden Sie JSON-RPC-Anfragen über stdin:
Oder verwenden Sie die ausführbare Datei:
MCP-Modus
Führen Sie den Dienst aus:
Oder verwenden Sie die ausführbare Datei:
Ergebnisse der Spracherkennung
Der Dienst liefert strukturierte Spracherkennungsergebnisse. Hier ist ein Beispiel für das Antwortformat:
Ursprüngliche API-Antwort
Umstrukturierte Antwort
Ergebnisfelder beschriften
Das Feld label_result enthält die folgenden strukturierten Informationen:
Feld | Beschreibung | Beispielwert |
lan | Sprachcode | "en" |
Emo | Emotionaler Zustand | "unbekannt" |
Typ | Audiotyp | "Rede" |
Lautsprecher | Sprecherkennung | "woitn" |
Text | Erkannter Textinhalt | "Test, Test, Test" |
Spezialetiketten
Der Dienst erkennt und verarbeitet die folgenden speziellen Bezeichnungen in der Originalantwort:
<|en|>- Sprachcode<|EMO_UNKNOWN|>– Emotionaler Zustand<|Speech|>- Audiotyp<|woitn|>– Sprecherkennung
Erstellen ausführbarer Dateien
Machen Sie das Build-Skript ausführbar:
Ausführbare Datei im stdio-Modus erstellen:
Ausführbare Datei im MCP-Modus erstellen:
Die ausführbaren Dateien werden erstellt unter:
stdio-Modus:
dist/voice_stdioMCP-Modus:
dist/voice_mcp
Testen
Führen Sie die Testskripte aus:
Lizenz
Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der Datei LICENSE.
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
Bietet Spracherkennungs- und Textextraktionsfunktionen mit Unterstützung für den Standard- und MCP-Modus, verarbeitet Audiodateien oder Base64-codierte Daten und gibt strukturierte Ergebnisse mit Informationen zu Sprache, Emotionen und Sprecher zurück.
Related MCP Servers
- -security-license-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -10
- -security-license-qualityProvides advanced analytical, research, and natural language processing capabilities through a Model Context Protocol server, enabling dataset analysis, decision analysis, and enhanced NLP features like entity recognition and fact extraction.Last updated -4MIT License
- -security-license-qualityIntegrates with Claude and Cursor using the Model Context Protocol to generate voice audio from text using Resemble AI's voices.Last updated -
- Asecurity-licenseAqualityA Model Context Protocol server that integrates with VOICEVOX engine to provide text-to-speech synthesis and speaker information retrieval, allowing users to generate and play voice audio from text.Last updated -2MIT License