Skip to main content
Glama

Voice Recognition MCP Service

by yangsenessa

MCP-Dienst zur Spracherkennung

Dieser Dienst bietet Spracherkennungs- und Textextraktionsfunktionen sowohl im Standard- als auch im MCP-Modus.

Merkmale

  • Spracherkennung aus Datei
  • Spracherkennung aus Base64-kodierten Daten
  • Textextraktion
  • Unterstützung für Standard- und MCP-Modus
  • Strukturierte Spracherkennungsergebnisse

Projektstruktur

  • voice_service.py – Implementierung des Kerndienstes
  • stdio_server.py – Einstiegspunkt für den Stdio-Modus
  • mcp_server.py - Einstiegspunkt für den MCP-Modus
  • build.py - Build-Skript für ausführbare Dateien
  • build_exec.sh - Build-Ausführungsskript
  • test_*.sh - Testskripte für verschiedene Funktionalitäten

Installation

  1. Klonen Sie das Repository:
git clone https://github.com/AIO-2030/mcp_voice_identify.git cd mcp_voice_identify
  1. Installieren Sie Abhängigkeiten:
pip install -r requirements.txt
  1. Richten Sie Umgebungsvariablen in .env ein:
API_URL=your_api_url API_KEY=your_api_key

Verwendung

stdio-Modus

  1. Führen Sie den Dienst aus:
python stdio_server.py
  1. Senden Sie JSON-RPC-Anfragen über stdin:
{ "jsonrpc": "2.0", "method": "help", "params": {}, "id": 1 }
  1. Oder verwenden Sie die ausführbare Datei:
./dist/voice_stdio

MCP-Modus

  1. Führen Sie den Dienst aus:
python mcp_server.py
  1. Oder verwenden Sie die ausführbare Datei:
./dist/voice_mcp

Ergebnisse der Spracherkennung

Der Dienst liefert strukturierte Spracherkennungsergebnisse. Hier ist ein Beispiel für das Antwortformat:

Ursprüngliche API-Antwort

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": "<|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>test test test" }, "id": 1 }

Umstrukturierte Antwort

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": { "lan": "en", "emo": "unknown", "type": "speech", "speaker": "woitn", "text": "test test test" } }, "id": 1 }

Ergebnisfelder beschriften

Das Feld label_result enthält die folgenden strukturierten Informationen:

FeldBeschreibungBeispielwert
lanSprachcode"en"
EmoEmotionaler Zustand"unbekannt"
TypAudiotyp"Rede"
LautsprecherSprecherkennung"woitn"
TextErkannter Textinhalt"Test, Test, Test"

Spezialetiketten

Der Dienst erkennt und verarbeitet die folgenden speziellen Bezeichnungen in der Originalantwort:

  • <|en|> - Sprachcode
  • <|EMO_UNKNOWN|> – Emotionaler Zustand
  • <|Speech|> - Audiotyp
  • <|woitn|> – Sprecherkennung

Erstellen ausführbarer Dateien

  1. Machen Sie das Build-Skript ausführbar:
chmod +x build_exec.sh
  1. Ausführbare Datei im stdio-Modus erstellen:
./build_exec.sh
  1. Ausführbare Datei im MCP-Modus erstellen:
./build_exec.sh mcp

Die ausführbaren Dateien werden erstellt unter:

  • stdio-Modus: dist/voice_stdio
  • MCP-Modus: dist/voice_mcp

Testen

Führen Sie die Testskripte aus:

chmod +x test_*.sh ./test_help.sh ./test_voice_file.sh ./test_voice_base64.sh

Lizenz

Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der Datei LICENSE.

-
security - not tested
A
license - permissive license
-
quality - not tested

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Bietet Spracherkennungs- und Textextraktionsfunktionen mit Unterstützung für den Standard- und MCP-Modus, verarbeitet Audiodateien oder Base64-codierte Daten und gibt strukturierte Ergebnisse mit Informationen zu Sprache, Emotionen und Sprecher zurück.

  1. Merkmale
    1. Projektstruktur
      1. Installation
        1. Verwendung
          1. stdio-Modus
          2. MCP-Modus
        2. Ergebnisse der Spracherkennung
          1. Ursprüngliche API-Antwort
          2. Umstrukturierte Antwort
          3. Ergebnisfelder beschriften
          4. Spezialetiketten
        3. Erstellen ausführbarer Dateien
          1. Testen
            1. Lizenz

              Related MCP Servers

              • -
                security
                A
                license
                -
                quality
                A Goose MCP extension providing voice interaction with modern audio visualization, allowing users to communicate with Goose through speech rather than text.
                Last updated -
                36
                Python
                MIT License
                • Linux
                • Apple
              • -
                security
                A
                license
                -
                quality
                A Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.
                Last updated -
                TypeScript
                MIT License
              • A
                security
                A
                license
                A
                quality
                A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
                Last updated -
                1
                2
                JavaScript
                MIT License
                • Linux
                • Apple

              View all related MCP servers

              MCP directory API

              We provide all the information about MCP servers via our MCP API.

              curl -X GET 'https://glama.ai/api/mcp/v1/servers/yangsenessa/mcp_voice_identify'

              If you have feedback or need assistance with the MCP directory API, please join our Discord server