音声認識MCPサービス
このサービスは、stdio モードと MCP モードの両方を通じて音声認識およびテキスト抽出機能を提供します。
特徴
ファイルからの音声認識
base64エンコードされたデータからの音声認識
テキスト抽出
stdioとMCPモードの両方をサポート
構造化された音声認識結果
Related MCP server: Analytical MCP Server
プロジェクト構造
voice_service.py- コアサービスの実装stdio_server.py- stdio モードのエントリ ポイントmcp_server.py- MCP モードのエントリ ポイントbuild.py- 実行可能ファイルのビルドスクリプトbuild_exec.sh- ビルド実行スクリプトtest_*.sh- さまざまな機能のテストスクリプト
インストール
リポジトリをクローンします。
依存関係をインストールします:
.envで環境変数を設定します。
使用法
stdioモード
サービスを実行します:
JSON-RPC リクエストを stdin 経由で送信します。
または実行可能ファイルを使用します:
MCPモード
サービスを実行します:
または実行可能ファイルを使用します:
音声認識結果
このサービスは構造化された音声認識結果を提供します。レスポンス形式の例を以下に示します。
元のAPIレスポンス
再構築された対応
ラベル結果フィールド
label_resultフィールドには、次の構造化された情報が含まれます。
分野 | 説明 | サンプル値 |
ラン | 言語コード | 「en」 |
エモ | 感情状態 | "未知" |
タイプ | オーディオタイプ | 「スピーチ」 |
スピーカー | スピーカー識別子 | 「ウォイトン」 |
文章 | 認識されたテキストコンテンツ | 「テスト、テスト、テスト」 |
特殊ラベル
サービスは、元の応答内の次の特殊なラベルを認識して処理します。
<|en|>- 言語コード<|EMO_UNKNOWN|>- 感情状態<|Speech|>- オーディオの種類<|woitn|>- 話者識別子
実行可能ファイルのビルド
ビルド スクリプトを実行可能にします。
stdio モード実行可能ファイルをビルドします。
MCP モード実行可能ファイルをビルドします。
実行可能ファイルは次の場所に作成されます:
stdioモード:
dist/voice_stdioMCPモード:
dist/voice_mcp
テスト
テスト スクリプトを実行します。
ライセンス
このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細については LICENSE ファイルを参照してください。