音声認識MCPサービス
このサービスは、stdio モードと MCP モードの両方を通じて音声認識およびテキスト抽出機能を提供します。
特徴
- ファイルからの音声認識
- base64エンコードされたデータからの音声認識
- テキスト抽出
- stdioとMCPモードの両方をサポート
- 構造化された音声認識結果
プロジェクト構造
voice_service.py
- コアサービスの実装stdio_server.py
- stdio モードのエントリ ポイントmcp_server.py
- MCP モードのエントリ ポイントbuild.py
- 実行可能ファイルのビルドスクリプトbuild_exec.sh
- ビルド実行スクリプトtest_*.sh
- さまざまな機能のテストスクリプト
インストール
- リポジトリをクローンします。
- 依存関係をインストールします:
.env
で環境変数を設定します。
使用法
stdioモード
- サービスを実行します:
- JSON-RPC リクエストを stdin 経由で送信します。
- または実行可能ファイルを使用します:
MCPモード
- サービスを実行します:
- または実行可能ファイルを使用します:
音声認識結果
このサービスは構造化された音声認識結果を提供します。レスポンス形式の例を以下に示します。
元のAPIレスポンス
再構築された対応
ラベル結果フィールド
label_result
フィールドには、次の構造化された情報が含まれます。
分野 | 説明 | サンプル値 |
---|---|---|
ラン | 言語コード | 「en」 |
エモ | 感情状態 | "未知" |
タイプ | オーディオタイプ | 「スピーチ」 |
スピーカー | スピーカー識別子 | 「ウォイトン」 |
文章 | 認識されたテキストコンテンツ | 「テスト、テスト、テスト」 |
特殊ラベル
サービスは、元の応答内の次の特殊なラベルを認識して処理します。
<|en|>
- 言語コード<|EMO_UNKNOWN|>
- 感情状態<|Speech|>
- オーディオの種類<|woitn|>
- 話者識別子
実行可能ファイルのビルド
- ビルド スクリプトを実行可能にします。
- stdio モード実行可能ファイルをビルドします。
- MCP モード実行可能ファイルをビルドします。
実行可能ファイルは次の場所に作成されます:
- stdioモード:
dist/voice_stdio
- MCPモード:
dist/voice_mcp
テスト
テスト スクリプトを実行します。
ライセンス
このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細については LICENSE ファイルを参照してください。
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
stdio モードと MCP モードの両方をサポートする音声認識およびテキスト抽出機能を提供し、オーディオ ファイルまたは base64 でエンコードされたデータを処理し、言語、感情、話者情報を含む構造化された結果を返します。
Related MCP Servers
- -securityAlicense-qualityA Goose MCP extension providing voice interaction with modern audio visualization, allowing users to communicate with Goose through speech rather than text.Last updated -36PythonMIT License
- AsecurityAlicenseAqualityMCP to analyse local audio file.Last updated -810PythonMIT License
- -securityAlicense-qualityA Model Context Protocol server that integrates high-quality text-to-speech capabilities with Claude Desktop and other MCP-compatible clients, supporting multiple voice options and audio formats.Last updated -TypeScriptMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License