Skip to main content
Glama

Voice Recognition MCP Service

by yangsenessa

音声認識MCPサービス

このサービスは、stdio モードと MCP モードの両方を通じて音声認識およびテキスト抽出機能を提供します。

特徴

  • ファイルからの音声認識
  • base64エンコードされたデータからの音声認識
  • テキスト抽出
  • stdioとMCPモードの両方をサポート
  • 構造化された音声認識結果

プロジェクト構造

  • voice_service.py - コアサービスの実装
  • stdio_server.py - stdio モードのエントリ ポイント
  • mcp_server.py - MCP モードのエントリ ポイント
  • build.py - 実行可能ファイルのビルドスクリプト
  • build_exec.sh - ビルド実行スクリプト
  • test_*.sh - さまざまな機能のテストスクリプト

インストール

  1. リポジトリをクローンします。
git clone https://github.com/AIO-2030/mcp_voice_identify.git cd mcp_voice_identify
  1. 依存関係をインストールします:
pip install -r requirements.txt
  1. .envで環境変数を設定します。
API_URL=your_api_url API_KEY=your_api_key

使用法

stdioモード

  1. サービスを実行します:
python stdio_server.py
  1. JSON-RPC リクエストを stdin 経由で送信します。
{ "jsonrpc": "2.0", "method": "help", "params": {}, "id": 1 }
  1. または実行可能ファイルを使用します:
./dist/voice_stdio

MCPモード

  1. サービスを実行します:
python mcp_server.py
  1. または実行可能ファイルを使用します:
./dist/voice_mcp

音声認識結果

このサービスは構造化された音声認識結果を提供します。レスポンス形式の例を以下に示します。

元のAPIレスポンス

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": "<|en|><|EMO_UNKNOWN|><|Speech|><|woitn|>test test test" }, "id": 1 }

再構築された対応

{ "jsonrpc": "2.0", "result": { "message": "input processed successfully", "results": "test test test", "label_result": { "lan": "en", "emo": "unknown", "type": "speech", "speaker": "woitn", "text": "test test test" } }, "id": 1 }

ラベル結果フィールド

label_resultフィールドには、次の構造化された情報が含まれます。

分野説明サンプル値
ラン言語コード「en」
エモ感情状態"未知"
タイプオーディオタイプ「スピーチ」
スピーカースピーカー識別子「ウォイトン」
文章認識されたテキストコンテンツ「テスト、テスト、テスト」

特殊ラベル

サービスは、元の応答内の次の特殊なラベルを認識して処理します。

  • <|en|> - 言語コード
  • <|EMO_UNKNOWN|> - 感情状態
  • <|Speech|> - オーディオの種類
  • <|woitn|> - 話者識別子

実行可能ファイルのビルド

  1. ビルド スクリプトを実行可能にします。
chmod +x build_exec.sh
  1. stdio モード実行可能ファイルをビルドします。
./build_exec.sh
  1. MCP モード実行可能ファイルをビルドします。
./build_exec.sh mcp

実行可能ファイルは次の場所に作成されます:

  • stdioモード: dist/voice_stdio
  • MCPモード: dist/voice_mcp

テスト

テスト スクリプトを実行します。

chmod +x test_*.sh ./test_help.sh ./test_voice_file.sh ./test_voice_base64.sh

ライセンス

このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細については LICENSE ファイルを参照してください。

-
security - not tested
A
license - permissive license
-
quality - not tested

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

stdio モードと MCP モードの両方をサポートする音声認識およびテキスト抽出機能を提供し、オーディオ ファイルまたは base64 でエンコードされたデータを処理し、言語、感情、話者情報を含む構造化された結果を返します。

  1. 特徴
    1. プロジェクト構造
      1. インストール
        1. 使用法
          1. stdioモード
          2. MCPモード
        2. 音声認識結果
          1. 元のAPIレスポンス
          2. 再構築された対応
          3. ラベル結果フィールド
          4. 特殊ラベル
        3. 実行可能ファイルのビルド
          1. テスト
            1. ライセンス

              Related MCP Servers

              • -
                security
                A
                license
                -
                quality
                A Goose MCP extension providing voice interaction with modern audio visualization, allowing users to communicate with Goose through speech rather than text.
                Last updated -
                36
                Python
                MIT License
                • Linux
                • Apple
              • -
                security
                A
                license
                -
                quality
                A Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.
                Last updated -
                TypeScript
                MIT License
              • A
                security
                A
                license
                A
                quality
                A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
                Last updated -
                1
                2
                JavaScript
                MIT License
                • Linux
                • Apple

              View all related MCP servers

              MCP directory API

              We provide all the information about MCP servers via our MCP API.

              curl -X GET 'https://glama.ai/api/mcp/v1/servers/yangsenessa/mcp_voice_identify'

              If you have feedback or need assistance with the MCP directory API, please join our Discord server