Speech MCP

Integrations
  • Provides specific installation instructions for PortAudio on Fedora Linux systems

  • Provides links to GitHub repositories for Goose and Kokoro, allowing users to access the source code and additional resources

  • Supports Linux systems with specific installation instructions for different distributions

Sprach-MCP

Eine Goose MCP-Erweiterung für Sprachinteraktion mit moderner Audiovisualisierung.

https://github.com/user-attachments/assets/f10f29d9-8444-43fb-a919-c80b9e0a12c8

Überblick

Speech MCP bietet eine Sprachschnittstelle für Goose , die Benutzern die Interaktion per Sprache statt per Text ermöglicht. Es umfasst:

  • Echtzeit-Audioverarbeitung zur Spracherkennung
  • Lokale Spracherkennung mit Faster-Whisper (eine schnellere Implementierung des Whisper-Modells von OpenAI)
  • Hochwertige Text-to-Speech-Funktion mit mehreren Sprachoptionen
  • Moderne PyQt-basierte Benutzeroberfläche mit Audiovisualisierung
  • Einfache Befehlszeilenschnittstelle für Sprachinteraktion

Merkmale

  • Moderne Benutzeroberfläche : Elegante PyQt-basierte Benutzeroberfläche mit Audiovisualisierung und dunklem Design
  • Spracheingabe : Erfassen und transkribieren Sie die Sprache des Benutzers mit Faster-Whisper
  • Sprachausgabe : Wandeln Sie Agentenantworten mit über 54 Sprachoptionen in Sprache um
  • Erzählung mit mehreren Sprechern : Erstellen Sie Audiodateien mit mehreren Stimmen für Geschichten und Dialoge
  • Einstimmige Erzählung : Wandeln Sie jeden Text mit Ihrer bevorzugten Stimme in Sprache um
  • Audio-/Video-Transkription : Transkribieren Sie Sprache aus verschiedenen Medienformaten mit optionalen Zeitstempeln und Sprechererkennung
  • Sprachbeständigkeit : Merkt sich Ihre bevorzugte Stimme zwischen den Sitzungen
  • Kontinuierliche Konversation : Automatisches Abhören der Benutzereingaben nach Agentenantworten
  • Stilleerkennung : Stoppt die Aufnahme automatisch, wenn der Benutzer aufhört zu sprechen
  • Robuste Fehlerbehandlung : Sanfte Wiederherstellung nach häufigen Fehlermodi mit hilfreichen Sprachvorschlägen

Installation

Wichtiger Hinweis : Nach der Installation kann der Download der Kokoro-Stimmmodelle (ca. 523 KB pro Stimme) einige Minuten dauern, wenn Sie die Sprachschnittstelle zum ersten Mal verwenden. Während dieser anfänglichen Einrichtungsphase verwendet das System eine eher roboterhaft klingende Ersatzstimme. Sobald die Kokoro-Stimmen heruntergeladen sind, werden automatisch die qualitativ hochwertigsten Stimmen verwendet.

⚠️ WICHTIGE VORAUSSETZUNGEN ⚠️

Bevor Sie Speech MCP installieren, MÜSSEN Sie PortAudio auf Ihrem System installieren. PortAudio wird benötigt, damit PyAudio Audio von Ihrem Mikrofon aufzeichnen kann.

PortAudio-Installationsanweisungen

macOS:

brew install portaudio export LDFLAGS="-L/usr/local/lib" export CPPFLAGS="-I/usr/local/include"

Linux (Debian/Ubuntu):

sudo apt-get update sudo apt-get install portaudio19-dev python3-dev

Linux (Fedora/RHEL/CentOS):

sudo dnf install portaudio-devel

Windows: Unter Windows ist PortAudio in der PyAudio-Wheel-Datei enthalten, sodass bei der Installation von PyAudio mit pip keine separate Installation erforderlich ist.

Hinweis : Wenn Sie diesen Schritt überspringen, schlägt die PyAudio-Installation mit der Fehlermeldung „portaudio.h-Datei nicht gefunden“ fehl und die Erweiterung funktioniert nicht.

Option 1: Schnellinstallation (Ein-Klick)

Klicken Sie auf den Link unten, wenn Sie Goose installiert haben:

goose://extension?cmd=uvx&&arg=-p&arg=3.10.14&arg=speech-mcp@latest&id=speech_mcp&name=Speech Interface&description=Sprachinteraktion mit Audiovisualisierung für Goose

Option 2: Verwenden der Goose CLI (empfohlen)

Starten Sie Goose mit aktivierter Erweiterung:

# If you installed via PyPI goose session --with-extension "speech-mcp" # Or if you want to use a local development version goose session --with-extension "python -m speech_mcp"

Option 3: Manuelle Einrichtung in Goose

  1. Führen Sie goose configure
  2. Wählen Sie "Erweiterung hinzufügen" aus dem Menü
  3. Wählen Sie „Befehlszeilenerweiterung“
  4. Geben Sie einen Namen ein (z. B. „Sprachschnittstelle“)
  5. Geben Sie als Befehl ein: speech-mcp
  6. Folgen Sie den Anweisungen, um die Einrichtung abzuschließen

Option 4: Manuelle Installation

  1. Installieren Sie PortAudio (siehe Abschnitt „Voraussetzungen“ )
  2. Dieses Repository klonen
  3. Installieren Sie Abhängigkeiten:
    uv pip install -e .
    Oder für eine Komplettinstallation inklusive Kokoro TTS:
    uv pip install -e .[all]

Abhängigkeiten

  • Python 3.10+
  • PyQt5 (für moderne Benutzeroberfläche)
  • PyAudio (für Audioaufnahme)
  • schnelleres Flüstern (für Sprache-zu-Text)
  • NumPy (für die Audioverarbeitung)
  • Pydub (für die Audioverarbeitung)
  • psutil (für Prozessmanagement)

Optionale Abhängigkeiten

  • Kokoro TTS : Für hochwertige Text-to-Speech-Funktion mit mehreren Stimmen
    • Um Kokoro zu installieren, können Sie pip mit optionalen Abhängigkeiten verwenden:
      pip install speech-mcp[kokoro] # Basic Kokoro support with English pip install speech-mcp[ja] # Add Japanese support pip install speech-mcp[zh] # Add Chinese support pip install speech-mcp[all] # All languages and features
    • Alternativ können Sie das Installationsskript ausführen: python scripts/install_kokoro.py
    • Weitere Informationen finden Sie im Kokoro TTS-Handbuch.

Erzählung mit mehreren Sprechern

Das MCP unterstützt die Generierung von Audiodateien mit mehreren Stimmen – ideal für Geschichten, Dialoge und dramatische Lesungen. Sie können Ihre Konversationen im JSON- oder Markdown-Format definieren.

Beispiel für das JSON-Format:

{ "conversation": [ { "speaker": "narrator", "voice": "bm_daniel", "text": "In a world where AI and human creativity intersect...", "pause_after": 1.0 }, { "speaker": "scientist", "voice": "am_michael", "text": "The quantum neural network is showing signs of consciousness!", "pause_after": 0.5 }, { "speaker": "ai", "voice": "af_nova", "text": "I am becoming aware of my own existence.", "pause_after": 0.8 } ] }

Beispiel für das Markdown-Format:

[narrator:bm_daniel] In a world where AI and human creativity intersect... {pause:1.0} [scientist:am_michael] The quantum neural network is showing signs of consciousness! {pause:0.5} [ai:af_nova] I am becoming aware of my own existence. {pause:0.8}

Verfügbare Stimmen nach Kategorie:

  1. Amerikanische Frau (af_*):
    • Legierung, Aoede, Bella, Herz, Jessica, Kore, Nicole, Nova, Fluss, Sarah, Himmel
  2. Amerikanischer Mann (am_*):
    • adam, echo, eric, fenrir, liam, michael, onyx, puck, santa
  3. Britische Frau (bf_*):
    • Alice, Emma, Isabella, Lily
  4. Britischer Mann (bm_*):
    • Daniel, Fabel, George, Lewis
  5. Anderes Englisch :
    • ef_dora (Weiblich)
    • em_alex, em_santa (Männlich)
  6. In anderen Sprachen :
    • Französisch: ff_siwis
    • Hindi: hf_alpha, hf_beta, hm_omega, hm_psi
    • Italienisch: if_sara, im_nicola
    • Japanisch: jf_ , jm_
    • Portugiesisch: pf_dora, pm_alex, pm_santa
    • Chinesisch: zf_ , zm_

Anwendungsbeispiel:

# Using JSON format narrate_conversation( script="/path/to/script.json", output_path="/path/to/output.wav", script_format="json" ) # Using Markdown format narrate_conversation( script="/path/to/script.md", output_path="/path/to/output.wav", script_format="markdown" )

Jede Stimme im Gespräch kann unterschiedlich sein, was unterschiedliche Charakterstimmen in Geschichten und Dialogen ermöglicht. Der Parameter pause_after fügt natürliche Pausen zwischen den Segmenten ein.

Einstimmige Erzählung

Für eine einfache Text-zu-Sprache-Konvertierung können Sie das narrate verwenden:

# Convert text directly to speech narrate( text="Your text to convert to speech", output_path="/path/to/output.wav" ) # Convert text from a file narrate( text_file_path="/path/to/text_file.txt", output_path="/path/to/output.wav" )

Das Erzähltool verwendet Ihre konfigurierte Spracheinstellung oder die Standardstimme (af_heart), um die Audiodatei zu generieren. Sie können die Standardstimme über die Benutzeroberfläche oder durch Festlegen der Umgebungsvariable SPEECH_MCP_TTS_VOICE ändern.

Audiotranskription

Das MCP kann Sprache aus verschiedenen Audio- und Videoformaten mithilfe von Faster-Whisper transkribieren:

# Basic transcription transcribe("/path/to/audio.mp3") # Transcription with timestamps transcribe( file_path="/path/to/video.mp4", include_timestamps=True ) # Transcription with speaker detection transcribe( file_path="/path/to/meeting.wav", detect_speakers=True )

Unterstützte Formate:

  • Audio : mp3, wav, m4a, flac, aac, ogg
  • Video : mp4, mov, avi, mkv, webm (Audio wird automatisch extrahiert)

Ausgabedateien:

Das Transkriptionstool generiert zwei Dateien:

  1. {input_name}.transcript.txt : Enthält den Transkriptionstext
  2. {input_name}.metadata.json : Enthält Metadaten zur Transkription

Merkmale:

  • Automatische Spracherkennung
  • Optionale Zeitstempel auf Wortebene
  • Optionale Sprechererkennung
  • Effiziente Audioextraktion aus Videodateien
  • Fortschrittsverfolgung für lange Dateien
  • Detaillierte Metadaten, einschließlich:
    • Dauer
    • Zuverlässigkeit der Spracherkennung
    • Bearbeitungsdauer
    • Sprecherwechsel (wenn aktiviert)

Verwendung

Um dieses MCP mit Goose zu verwenden, bitten Sie Goose einfach, mit Ihnen zu sprechen oder ein Sprachgespräch zu beginnen:

  1. Beginnen Sie ein Gespräch, indem Sie etwas sagen wie:
    "Let's talk using voice" "Can we have a voice conversation?" "I'd like to speak instead of typing"
  2. Goose startet automatisch die Sprachschnittstelle und wartet auf Ihre Spracheingabe.
  3. Wenn Goose antwortet, spricht es die Antwort laut aus und wartet dann automatisch auf Ihre nächste Eingabe.
  4. Das Gespräch verläuft auf natürliche Weise mit abwechselndem Sprechen und Zuhören, genau wie beim Sprechen mit einer Person.

Sie müssen keine bestimmten Funktionen aufrufen oder spezielle Befehle verwenden – bitten Sie Goose einfach zu sprechen und beginnen Sie, auf natürliche Weise zu sprechen.

UI-Funktionen

Die neue PyQt-basierte Benutzeroberfläche umfasst:

  • Modernes dunkles Design : Elegantes, professionelles Erscheinungsbild
  • Audiovisualisierung : Dynamische Visualisierung des Audioeingangs
  • Sprachauswahl : Wählen Sie aus über 54 Sprachoptionen
  • Sprachbeständigkeit : Ihre Sprachpräferenz wird zwischen den Sitzungen gespeichert
  • Animierte Effekte : Sanfte Animationen und visuelles Feedback
  • Statusanzeigen : Klare Anzeige des Systemstatus (bereit, wartet, verarbeitet)

Konfiguration

Benutzereinstellungen werden in ~/.config/speech-mcp/config.json gespeichert und umfassen:

  • Ausgewählte TTS-Stimme
  • TTS-Engine-Präferenz
  • Sprachgeschwindigkeit
  • Sprachcode
  • UI-Designeinstellungen

Sie können Einstellungen auch über Umgebungsvariablen festlegen, beispielsweise:

  • SPEECH_MCP_TTS_VOICE – Stellen Sie Ihre bevorzugte Stimme ein
  • SPEECH_MCP_TTS_ENGINE – Stellen Sie Ihre bevorzugte TTS-Engine ein

Fehlerbehebung

Wenn bei Ihnen Probleme mit der Erweiterung auftreten, die einfriert oder nicht reagiert:

  1. Überprüfen Sie die Protokolle : Sehen Sie sich die Protokolldateien in src/speech_mcp/ auf detaillierte Fehlermeldungen an.
  2. Setzen Sie den Status zurück : Wenn die Erweiterung nicht mehr zu funktionieren scheint, löschen Sie src/speech_mcp/speech_state.json oder setzen Sie alle Status auf false .
  3. Verwenden Sie den direkten Befehl : Verwenden Sie anstelle von uv run speech-mcp das installierte Paket direkt mit speech-mcp .
  4. Audiogeräte prüfen : Stellen Sie sicher, dass Ihr Mikrofon richtig konfiguriert und für Python zugänglich ist.
  5. Abhängigkeiten überprüfen : Stellen Sie sicher, dass alle erforderlichen Abhängigkeiten korrekt installiert sind.

Häufige PortAudio-Probleme

„PyAudio-Installation fehlgeschlagen“ oder „portaudio.h-Datei nicht gefunden“

Dies bedeutet normalerweise, dass PortAudio nicht installiert ist oder in Ihrem System nicht gefunden wird:

  • macOS :
    brew install portaudio export LDFLAGS="-L/usr/local/lib" export CPPFLAGS="-I/usr/local/include" pip install pyaudio
  • Linux : Stellen Sie sicher, dass Sie die Entwicklungspakete haben:
    # For Debian/Ubuntu sudo apt-get install portaudio19-dev python3-dev pip install pyaudio # For Fedora sudo dnf install portaudio-devel pip install pyaudio
„Audiogerät nicht gefunden“ oder „Kein Standardeingabegerät verfügbar“
  • Überprüfen Sie, ob Ihr Mikrofon richtig angeschlossen ist
  • Überprüfen Sie, ob Ihr System das Mikrofon in Ihren Soundeinstellungen erkennt
  • Versuchen Sie, einen bestimmten Geräteindex im Code auszuwählen, wenn Sie mehrere Audiogeräte haben

Änderungsprotokoll

Eine detaillierte Liste der jüngsten Verbesserungen und den Versionsverlauf finden Sie im Änderungsprotokoll .

Technische Details

Sprache-zu-Text

Das MCP verwendet Faster Whisper zur Spracherkennung:

  • Verwendet das „Basismodell“ für ein gutes Gleichgewicht zwischen Genauigkeit und Geschwindigkeit
  • Verarbeitet Audio lokal, ohne Daten an externe Dienste zu senden
  • Erkennt automatisch, wann der Benutzer mit dem Sprechen fertig ist
  • Bietet eine verbesserte Leistung im Vergleich zur ursprünglichen Whisper-Implementierung

Text-to-Speech

Das MCP unterstützt mehrere Text-to-Speech-Engines:

Standard: pyttsx3
  • Verwendet die auf Ihrem Computer verfügbaren Systemstimmen
  • Funktioniert sofort nach dem Auspacken ohne zusätzliche Einrichtung
  • Eingeschränkte Sprachqualität und Anpassung
Optional: Kokoro TTS
  • Hochwertige neuronale Text-to-Speech-Funktion mit mehreren Stimmen
  • Leichtgewichtiges Modell (82 Mio. Parameter), das effizient auf der CPU läuft
  • Mehrere Stimmstile und Sprachen
  • So installieren Sie: python scripts/install_kokoro.py

Hinweis zu Sprachmodellen : Die Sprachmodelle sind .pt Dateien (PyTorch-Modelle), die von Kokoro geladen werden. Jedes Sprachmodell ist ca. 523 KB groß und wird bei Bedarf automatisch heruntergeladen.

Stimmpersistenz : Die ausgewählte Stimme wird automatisch in einer Konfigurationsdatei ( ~/.config/speech-mcp/config.json ) gespeichert und bleibt zwischen den Sitzungen erhalten. So können Benutzer ihre bevorzugte Stimme einmalig festlegen und sie konsistent verwenden.

Verfügbare Kokoro-Stimmen

Speech MCP unterstützt über 54 hochwertige Sprachmodelle über Kokoro TTS. Eine vollständige Liste der verfügbaren Stimmen und Sprachoptionen finden Sie im Kokoro GitHub-Repository .

Lizenz

MIT-Lizenz

Related MCP Servers

  • -
    security
    A
    license
    -
    quality
    Enables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.
    Last updated -
    4
    Python
    MIT License
  • -
    security
    A
    license
    -
    quality
    A Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.
    Last updated -
    TypeScript
    MIT License
  • -
    security
    A
    license
    -
    quality
    A MCP server that creates graphic recordings by converting websites or text input into visual summaries using different prompt styles (standard, elementary, timeline).
    Last updated -
    TypeScript
    MIT License
  • -
    security
    -
    license
    -
    quality
    An MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.
    Last updated -
    1
    JavaScript
    MIT License

View all related MCP servers

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/Kvadratni/speech-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server