Skip to main content
Glama

Voice Recognition MCP Service

by yangsenessa

MCP-Dienst zur Spracherkennung

Dieser Dienst bietet Spracherkennungs- und Textextraktionsfunktionen sowohl im Standard- als auch im MCP-Modus.

Merkmale

  • Spracherkennung aus Datei

  • Spracherkennung aus Base64-kodierten Daten

  • Textextraktion

  • Unterstützung für Standard- und MCP-Modus

  • Strukturierte Spracherkennungsergebnisse

Projektstruktur

  • voice_service.py – Implementierung des Kerndienstes

  • stdio_server.py – Einstiegspunkt für den Stdio-Modus

  • mcp_server.py - Einstiegspunkt für den MCP-Modus

  • build.py - Build-Skript für ausführbare Dateien

  • build_exec.sh - Build-Ausführungsskript

  • test_*.sh - Testskripte für verschiedene Funktionalitäten

Installation

  1. Klonen Sie das Repository:

git clone https://github.com/AIO-2030/mcp_voice_identify.git cd mcp_voice_identify
  1. Installieren Sie Abhängigkeiten:

pip install -r requirements.txt
  1. Richten Sie Umgebungsvariablen in .env ein:

API_URL=your_api_url API_KEY=your_api_key

Verwendung

stdio-Modus

  1. Führen Sie den Dienst aus:

python stdio_server.py
  1. Senden Sie JSON-RPC-Anfragen über stdin:

{ "jsonrpc": "2.0", "method": "help", "params": {}, "id": 1 }
  1. Oder verwenden Sie die ausführbare Datei:

./dist/voice_stdio

MCP-Modus

  1. Führen Sie den Dienst aus:

python mcp_server.py
  1. Oder verwenden Sie die ausführbare Datei:

./dist/voice_mcp

Ergebnisse der Spracherkennung

Der Dienst liefert strukturierte Spracherkennungsergebnisse. Hier ist ein Beispiel für das Antwortformat:

Ursprüngliche API-Antwort

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": "<|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>test test test" }, "id": 1 }

Umstrukturierte Antwort

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": { "lan": "en", "emo": "unknown", "type": "speech", "speaker": "woitn", "text": "test test test" } }, "id": 1 }

Ergebnisfelder beschriften

Das Feld label_result enthält die folgenden strukturierten Informationen:

Feld

Beschreibung

Beispielwert

lan

Sprachcode

"en"

Emo

Emotionaler Zustand

"unbekannt"

Typ

Audiotyp

"Rede"

Lautsprecher

Sprecherkennung

"woitn"

Text

Erkannter Textinhalt

"Test, Test, Test"

Spezialetiketten

Der Dienst erkennt und verarbeitet die folgenden speziellen Bezeichnungen in der Originalantwort:

  • <|en|> - Sprachcode

  • <|EMO_UNKNOWN|> – Emotionaler Zustand

  • <|Speech|> - Audiotyp

  • <|woitn|> – Sprecherkennung

Erstellen ausführbarer Dateien

  1. Machen Sie das Build-Skript ausführbar:

chmod +x build_exec.sh
  1. Ausführbare Datei im stdio-Modus erstellen:

./build_exec.sh
  1. Ausführbare Datei im MCP-Modus erstellen:

./build_exec.sh mcp

Die ausführbaren Dateien werden erstellt unter:

  • stdio-Modus: dist/voice_stdio

  • MCP-Modus: dist/voice_mcp

Testen

Führen Sie die Testskripte aus:

chmod +x test_*.sh ./test_help.sh ./test_voice_file.sh ./test_voice_base64.sh

Lizenz

Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der Datei LICENSE.

-
security - not tested
-
license - not tested
-
quality - not tested

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Bietet Spracherkennungs- und Textextraktionsfunktionen mit Unterstützung für den Standard- und MCP-Modus, verarbeitet Audiodateien oder Base64-codierte Daten und gibt strukturierte Ergebnisse mit Informationen zu Sprache, Emotionen und Sprecher zurück.

  1. Merkmale
    1. Projektstruktur
      1. Installation
        1. Verwendung
          1. stdio-Modus
          2. MCP-Modus
        2. Ergebnisse der Spracherkennung
          1. Ursprüngliche API-Antwort
          2. Umstrukturierte Antwort
          3. Ergebnisfelder beschriften
          4. Spezialetiketten
        3. Erstellen ausführbarer Dateien
          1. Testen
            1. Lizenz

              Related MCP Servers

              • -
                security
                -
                license
                -
                quality
                Provides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.
                Last updated -
                10
              • -
                security
                -
                license
                -
                quality
                Provides advanced analytical, research, and natural language processing capabilities through a Model Context Protocol server, enabling dataset analysis, decision analysis, and enhanced NLP features like entity recognition and fact extraction.
                Last updated -
                4
                MIT License
                • Linux
                • Apple
              • A
                security
                -
                license
                A
                quality
                A Model Context Protocol server that integrates with VOICEVOX engine to provide text-to-speech synthesis and speaker information retrieval, allowing users to generate and play voice audio from text.
                Last updated -
                2
                MIT License
                • Apple

              View all related MCP servers

              MCP directory API

              We provide all the information about MCP servers via our MCP API.

              curl -X GET 'https://glama.ai/api/mcp/v1/servers/yangsenessa/mcp_voice_identify'

              If you have feedback or need assistance with the MCP directory API, please join our Discord server