音声認識MCPサービス
このサービスは、stdio モードと MCP モードの両方を通じて音声認識およびテキスト抽出機能を提供します。
特徴
- ファイルからの音声認識
- base64エンコードされたデータからの音声認識
- テキスト抽出
- stdioとMCPモードの両方をサポート
- 構造化された音声認識結果
プロジェクト構造
voice_service.py
- コアサービスの実装stdio_server.py
- stdio モードのエントリ ポイントmcp_server.py
- MCP モードのエントリ ポイントbuild.py
- 実行可能ファイルのビルドスクリプトbuild_exec.sh
- ビルド実行スクリプトtest_*.sh
- さまざまな機能のテストスクリプト
インストール
- リポジトリをクローンします。
- 依存関係をインストールします:
.env
で環境変数を設定します。
使用法
stdioモード
- サービスを実行します:
- JSON-RPC リクエストを stdin 経由で送信します。
- または実行可能ファイルを使用します:
MCPモード
- サービスを実行します:
- または実行可能ファイルを使用します:
音声認識結果
このサービスは構造化された音声認識結果を提供します。レスポンス形式の例を以下に示します。
元のAPIレスポンス
再構築された対応
ラベル結果フィールド
label_result
フィールドには、次の構造化された情報が含まれます。
分野 | 説明 | サンプル値 |
---|---|---|
ラン | 言語コード | 「en」 |
エモ | 感情状態 | "未知" |
タイプ | オーディオタイプ | 「スピーチ」 |
スピーカー | スピーカー識別子 | 「ウォイトン」 |
文章 | 認識されたテキストコンテンツ | 「テスト、テスト、テスト」 |
特殊ラベル
サービスは、元の応答内の次の特殊なラベルを認識して処理します。
<|en|>
- 言語コード<|EMO_UNKNOWN|>
- 感情状態<|Speech|>
- オーディオの種類<|woitn|>
- 話者識別子
実行可能ファイルのビルド
- ビルド スクリプトを実行可能にします。
- stdio モード実行可能ファイルをビルドします。
- MCP モード実行可能ファイルをビルドします。
実行可能ファイルは次の場所に作成されます:
- stdioモード:
dist/voice_stdio
- MCPモード:
dist/voice_mcp
テスト
テスト スクリプトを実行します。
ライセンス
このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細については LICENSE ファイルを参照してください。
This server cannot be installed
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
stdio モードと MCP モードの両方をサポートする音声認識およびテキスト抽出機能を提供し、オーディオ ファイルまたは base64 でエンコードされたデータを処理し、言語、感情、話者情報を含む構造化された結果を返します。
Related MCP Servers
- AsecurityAlicenseAqualityEnables text extraction from web pages and PDFs, and execution of predefined commands, enhancing content processing and automation capabilities.Last updated -3TypeScriptMIT License
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -2Python
- -securityAlicense-qualityProvides advanced analytical, research, and natural language processing capabilities through a Model Context Protocol server, enabling dataset analysis, decision analysis, and enhanced NLP features like entity recognition and fact extraction.Last updated -2TypeScriptMIT License
- -securityFlicense-qualityIntegrates with Claude and Cursor using the Model Context Protocol to generate voice audio from text using Resemble AI's voices.Last updated -Python