Sprach-MCP
Eine Goose MCP-Erweiterung für Sprachinteraktion mit moderner Audiovisualisierung.
https://github.com/user-attachments/assets/f10f29d9-8444-43fb-a919-c80b9e0a12c8
Überblick
Speech MCP bietet eine Sprachschnittstelle für Goose , die Benutzern die Interaktion per Sprache statt per Text ermöglicht. Es umfasst:
Echtzeit-Audioverarbeitung zur Spracherkennung
Lokale Spracherkennung mit Faster-Whisper (eine schnellere Implementierung des Whisper-Modells von OpenAI)
Hochwertige Text-to-Speech-Funktion mit mehreren Sprachoptionen
Moderne PyQt-basierte Benutzeroberfläche mit Audiovisualisierung
Einfache Befehlszeilenschnittstelle für Sprachinteraktion
Merkmale
Moderne Benutzeroberfläche : Elegante PyQt-basierte Benutzeroberfläche mit Audiovisualisierung und dunklem Design
Spracheingabe : Erfassen und transkribieren Sie die Sprache des Benutzers mit Faster-Whisper
Sprachausgabe : Wandeln Sie Agentenantworten mit über 54 Sprachoptionen in Sprache um
Erzählung mit mehreren Sprechern : Erstellen Sie Audiodateien mit mehreren Stimmen für Geschichten und Dialoge
Einstimmige Erzählung : Wandeln Sie jeden Text mit Ihrer bevorzugten Stimme in Sprache um
Audio-/Video-Transkription : Transkribieren Sie Sprache aus verschiedenen Medienformaten mit optionalen Zeitstempeln und Sprechererkennung
Sprachbeständigkeit : Merkt sich Ihre bevorzugte Stimme zwischen den Sitzungen
Kontinuierliche Konversation : Automatisches Abhören der Benutzereingaben nach Agentenantworten
Stilleerkennung : Stoppt die Aufnahme automatisch, wenn der Benutzer aufhört zu sprechen
Robuste Fehlerbehandlung : Sanfte Wiederherstellung nach häufigen Fehlermodi mit hilfreichen Sprachvorschlägen
Installation
Wichtiger Hinweis : Nach der Installation kann der Download der Kokoro-Stimmmodelle (ca. 523 KB pro Stimme) einige Minuten dauern, wenn Sie die Sprachschnittstelle zum ersten Mal verwenden. Während dieser anfänglichen Einrichtungsphase verwendet das System eine eher roboterhaft klingende Ersatzstimme. Sobald die Kokoro-Stimmen heruntergeladen sind, werden automatisch die qualitativ hochwertigsten Stimmen verwendet.
⚠️ WICHTIGE VORAUSSETZUNGEN ⚠️
Bevor Sie Speech MCP installieren, MÜSSEN Sie PortAudio auf Ihrem System installieren. PortAudio wird benötigt, damit PyAudio Audio von Ihrem Mikrofon aufzeichnen kann.
PortAudio-Installationsanweisungen
macOS:
Linux (Debian/Ubuntu):
Linux (Fedora/RHEL/CentOS):
Windows: Unter Windows ist PortAudio in der PyAudio-Wheel-Datei enthalten, sodass bei der Installation von PyAudio mit pip keine separate Installation erforderlich ist.
Hinweis : Wenn Sie diesen Schritt überspringen, schlägt die PyAudio-Installation mit der Fehlermeldung „portaudio.h-Datei nicht gefunden“ fehl und die Erweiterung funktioniert nicht.
Option 1: Schnellinstallation (Ein-Klick)
Klicken Sie auf den Link unten, wenn Sie Goose installiert haben:
Option 2: Verwenden der Goose CLI (empfohlen)
Starten Sie Goose mit aktivierter Erweiterung:
Option 3: Manuelle Einrichtung in Goose
Führen Sie
goose configure
Wählen Sie "Erweiterung hinzufügen" aus dem Menü
Wählen Sie „Befehlszeilenerweiterung“
Geben Sie einen Namen ein (z. B. „Sprachschnittstelle“)
Geben Sie als Befehl ein:
speech-mcp
Folgen Sie den Anweisungen, um die Einrichtung abzuschließen
Option 4: Manuelle Installation
Installieren Sie PortAudio (siehe Abschnitt „Voraussetzungen“ )
Dieses Repository klonen
Installieren Sie Abhängigkeiten:
uv pip install -e .Oder für eine Komplettinstallation inklusive Kokoro TTS:
uv pip install -e .[all]
Abhängigkeiten
Python 3.10+
PyQt5 (für moderne Benutzeroberfläche)
PyAudio (für Audioaufnahme)
schnelleres Flüstern (für Sprache-zu-Text)
NumPy (für die Audioverarbeitung)
Pydub (für die Audioverarbeitung)
psutil (für Prozessmanagement)
Optionale Abhängigkeiten
Kokoro TTS : Für hochwertige Text-to-Speech-Funktion mit mehreren Stimmen
Um Kokoro zu installieren, können Sie pip mit optionalen Abhängigkeiten verwenden:
pip install speech-mcp[kokoro] # Basic Kokoro support with English pip install speech-mcp[ja] # Add Japanese support pip install speech-mcp[zh] # Add Chinese support pip install speech-mcp[all] # All languages and featuresAlternativ können Sie das Installationsskript ausführen:
python scripts/install_kokoro.py
Weitere Informationen finden Sie im Kokoro TTS-Handbuch.
Erzählung mit mehreren Sprechern
Das MCP unterstützt die Generierung von Audiodateien mit mehreren Stimmen – ideal für Geschichten, Dialoge und dramatische Lesungen. Sie können Ihre Konversationen im JSON- oder Markdown-Format definieren.
Beispiel für das JSON-Format:
Beispiel für das Markdown-Format:
Verfügbare Stimmen nach Kategorie:
Amerikanische Frau (af_*):
Legierung, Aoede, Bella, Herz, Jessica, Kore, Nicole, Nova, Fluss, Sarah, Himmel
Amerikanischer Mann (am_*):
adam, echo, eric, fenrir, liam, michael, onyx, puck, santa
Britische Frau (bf_*):
Alice, Emma, Isabella, Lily
Britischer Mann (bm_*):
Daniel, Fabel, George, Lewis
Anderes Englisch :
ef_dora (Weiblich)
em_alex, em_santa (Männlich)
In anderen Sprachen :
Französisch: ff_siwis
Hindi: hf_alpha, hf_beta, hm_omega, hm_psi
Italienisch: if_sara, im_nicola
Japanisch: jf_ , jm_
Portugiesisch: pf_dora, pm_alex, pm_santa
Chinesisch: zf_ , zm_
Anwendungsbeispiel:
Jede Stimme im Gespräch kann unterschiedlich sein, was unterschiedliche Charakterstimmen in Geschichten und Dialogen ermöglicht. Der Parameter pause_after
fügt natürliche Pausen zwischen den Segmenten ein.
Einstimmige Erzählung
Für eine einfache Text-zu-Sprache-Konvertierung können Sie das narrate
verwenden:
Das Erzähltool verwendet Ihre konfigurierte Spracheinstellung oder die Standardstimme (af_heart), um die Audiodatei zu generieren. Sie können die Standardstimme über die Benutzeroberfläche oder durch Festlegen der Umgebungsvariable SPEECH_MCP_TTS_VOICE
ändern.
Audiotranskription
Das MCP kann Sprache aus verschiedenen Audio- und Videoformaten mithilfe von Faster-Whisper transkribieren:
Unterstützte Formate:
Audio : mp3, wav, m4a, flac, aac, ogg
Video : mp4, mov, avi, mkv, webm (Audio wird automatisch extrahiert)
Ausgabedateien:
Das Transkriptionstool generiert zwei Dateien:
{input_name}.transcript.txt
: Enthält den Transkriptionstext{input_name}.metadata.json
: Enthält Metadaten zur Transkription
Merkmale:
Automatische Spracherkennung
Optionale Zeitstempel auf Wortebene
Optionale Sprechererkennung
Effiziente Audioextraktion aus Videodateien
Fortschrittsverfolgung für lange Dateien
Detaillierte Metadaten, einschließlich:
Dauer
Zuverlässigkeit der Spracherkennung
Bearbeitungsdauer
Sprecherwechsel (wenn aktiviert)
Verwendung
Um dieses MCP mit Goose zu verwenden, bitten Sie Goose einfach, mit Ihnen zu sprechen oder ein Sprachgespräch zu beginnen:
Beginnen Sie ein Gespräch, indem Sie etwas sagen wie:
"Let's talk using voice" "Can we have a voice conversation?" "I'd like to speak instead of typing"Goose startet automatisch die Sprachschnittstelle und wartet auf Ihre Spracheingabe.
Wenn Goose antwortet, spricht es die Antwort laut aus und wartet dann automatisch auf Ihre nächste Eingabe.
Das Gespräch verläuft auf natürliche Weise mit abwechselndem Sprechen und Zuhören, genau wie beim Sprechen mit einer Person.
Sie müssen keine bestimmten Funktionen aufrufen oder spezielle Befehle verwenden – bitten Sie Goose einfach zu sprechen und beginnen Sie, auf natürliche Weise zu sprechen.
UI-Funktionen
Die neue PyQt-basierte Benutzeroberfläche umfasst:
Modernes dunkles Design : Elegantes, professionelles Erscheinungsbild
Audiovisualisierung : Dynamische Visualisierung des Audioeingangs
Sprachauswahl : Wählen Sie aus über 54 Sprachoptionen
Sprachbeständigkeit : Ihre Sprachpräferenz wird zwischen den Sitzungen gespeichert
Animierte Effekte : Sanfte Animationen und visuelles Feedback
Statusanzeigen : Klare Anzeige des Systemstatus (bereit, wartet, verarbeitet)
Konfiguration
Benutzereinstellungen werden in ~/.config/speech-mcp/config.json
gespeichert und umfassen:
Ausgewählte TTS-Stimme
TTS-Engine-Präferenz
Sprachgeschwindigkeit
Sprachcode
UI-Designeinstellungen
Sie können Einstellungen auch über Umgebungsvariablen festlegen, beispielsweise:
SPEECH_MCP_TTS_VOICE
– Stellen Sie Ihre bevorzugte Stimme einSPEECH_MCP_TTS_ENGINE
– Stellen Sie Ihre bevorzugte TTS-Engine ein
Fehlerbehebung
Wenn bei Ihnen Probleme mit der Erweiterung auftreten, die einfriert oder nicht reagiert:
Überprüfen Sie die Protokolle : Sehen Sie sich die Protokolldateien in
src/speech_mcp/
auf detaillierte Fehlermeldungen an.Setzen Sie den Status zurück : Wenn die Erweiterung nicht mehr zu funktionieren scheint, löschen Sie
src/speech_mcp/speech_state.json
oder setzen Sie alle Status auffalse
.Verwenden Sie den direkten Befehl : Verwenden Sie anstelle von
uv run speech-mcp
das installierte Paket direkt mitspeech-mcp
.Audiogeräte prüfen : Stellen Sie sicher, dass Ihr Mikrofon richtig konfiguriert und für Python zugänglich ist.
Abhängigkeiten überprüfen : Stellen Sie sicher, dass alle erforderlichen Abhängigkeiten korrekt installiert sind.
Häufige PortAudio-Probleme
„PyAudio-Installation fehlgeschlagen“ oder „portaudio.h-Datei nicht gefunden“
Dies bedeutet normalerweise, dass PortAudio nicht installiert ist oder in Ihrem System nicht gefunden wird:
macOS :
brew install portaudio export LDFLAGS="-L/usr/local/lib" export CPPFLAGS="-I/usr/local/include" pip install pyaudioLinux : Stellen Sie sicher, dass Sie die Entwicklungspakete haben:
# For Debian/Ubuntu sudo apt-get install portaudio19-dev python3-dev pip install pyaudio # For Fedora sudo dnf install portaudio-devel pip install pyaudio
„Audiogerät nicht gefunden“ oder „Kein Standardeingabegerät verfügbar“
Überprüfen Sie, ob Ihr Mikrofon richtig angeschlossen ist
Überprüfen Sie, ob Ihr System das Mikrofon in Ihren Soundeinstellungen erkennt
Versuchen Sie, einen bestimmten Geräteindex im Code auszuwählen, wenn Sie mehrere Audiogeräte haben
Änderungsprotokoll
Eine detaillierte Liste der jüngsten Verbesserungen und den Versionsverlauf finden Sie im Änderungsprotokoll .
Technische Details
Sprache-zu-Text
Das MCP verwendet Faster Whisper zur Spracherkennung:
Verwendet das „Basismodell“ für ein gutes Gleichgewicht zwischen Genauigkeit und Geschwindigkeit
Verarbeitet Audio lokal, ohne Daten an externe Dienste zu senden
Erkennt automatisch, wann der Benutzer mit dem Sprechen fertig ist
Bietet eine verbesserte Leistung im Vergleich zur ursprünglichen Whisper-Implementierung
Text-to-Speech
Das MCP unterstützt mehrere Text-to-Speech-Engines:
Standard: pyttsx3
Verwendet die auf Ihrem Computer verfügbaren Systemstimmen
Funktioniert sofort nach dem Auspacken ohne zusätzliche Einrichtung
Eingeschränkte Sprachqualität und Anpassung
Optional: Kokoro TTS
Hochwertige neuronale Text-to-Speech-Funktion mit mehreren Stimmen
Leichtgewichtiges Modell (82 Mio. Parameter), das effizient auf der CPU läuft
Mehrere Stimmstile und Sprachen
So installieren Sie:
python scripts/install_kokoro.py
Hinweis zu Sprachmodellen : Die Sprachmodelle sind .pt
Dateien (PyTorch-Modelle), die von Kokoro geladen werden. Jedes Sprachmodell ist ca. 523 KB groß und wird bei Bedarf automatisch heruntergeladen.
Stimmpersistenz : Die ausgewählte Stimme wird automatisch in einer Konfigurationsdatei ( ~/.config/speech-mcp/config.json
) gespeichert und bleibt zwischen den Sitzungen erhalten. So können Benutzer ihre bevorzugte Stimme einmalig festlegen und sie konsistent verwenden.
Verfügbare Kokoro-Stimmen
Speech MCP unterstützt über 54 hochwertige Sprachmodelle über Kokoro TTS. Eine vollständige Liste der verfügbaren Stimmen und Sprachoptionen finden Sie im Kokoro GitHub-Repository .
Lizenz
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
Eine Goose MCP-Erweiterung, die Sprachinteraktion mit moderner Audiovisualisierung ermöglicht und es Benutzern ermöglicht, mit Goose über Sprache statt über Text zu kommunizieren.
- Überblick
- Merkmale
- Installation
- ⚠️ WICHTIGE VORAUSSETZUNGEN ⚠️
- Abhängigkeiten
- Erzählung mit mehreren Sprechern
- Einstimmige Erzählung
- Audiotranskription
- Verwendung
- UI-Funktionen
- Konfiguration
- Fehlerbehebung
- Änderungsprotokoll
- Technische Details
- Lizenz
Related Resources
Related MCP Servers
- -securityAlicense-qualityEnables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.Last updated -6MIT License
- AsecurityFlicenseAqualityThis MCP server allows users to create, manage, and serve web applications through Goose, storing apps in configurable directories and providing web app serving capabilities.Last updated -92
- -securityAlicense-qualityAn MCP server that enables interaction with Kubernetes resources through natural language interfaces like Goose CLI, allowing users to get, read, and patch Kubernetes resources.Last updated -Apache 2.0
- -securityAlicense-qualityGives Goose/Cursor access to your iOS/macOS project index through the Model Control Protocol (MCP) and IndexStoreDB. This provides exhaustive lists of function call sites to help your agent with refactoring and code navigation.Last updated -19Apache 2.0