Integrations
Enables containerized deployment of the transcription service, making it portable and providing a consistent runtime environment.
Provides audio file processing capabilities, allowing the transcription service to handle various audio formats like .wav, .mp3, .ogg, and .m4a.
Integrates with OpenAI's Whisper models to provide high-quality, multi-language audio transcription with options for different model sizes.
MCP オーディオトランスクリプター
OpenAI の Whisper モデルを使用してオーディオ文字起こし用の**モデル コンテキスト プロトコル (MCP)**を実装した、ポータブルな Docker 化された Python ツールです。Streamlit を利用した Web UI も付属しており、オーディオ ファイルをアップロードして、文字起こしを JSON としてダウンロードできます。
🚀 機能
- 標準
ModelContextProtocol
を定義するモジュラー MCP インターフェース(mcp.py
)。 - 高品質、多言語文字起こしのためのWhisper ベースの実装(
WhisperMCP
)。 - バッチまたはアドホック転写用のコマンドラインインターフェース(
app.py
):Copy - 一貫したランタイムのためのDocker サポート:Copy
- Streamlit Web アプリ(
streamlit_app.py
) では、エンド ユーザーが次の操作を実行できます。- 一般的なオーディオファイル(.wav、.mp3、.ogg、.m4a)をアップロードします。
- Whisperモデルのサイズを選択してください
- ライブでトランスクリプションをプレビューする
- ワンクリックでJSON結果をダウンロード
📦 前提条件
- Python 3.10以上
- ffmpeg がインストールされ、PATH に設定されている
- (オプション)Docker Engine / Docker Desktop
- (オプション)Streamlit
🔧 インストール
- リポジトリをクローンするCopy
- Python の依存関係と FFmpegCopy
- (オプション)Docker
- Dockerデスクトップをインストールする
- WSL2 を使用する場合は、WSL 統合を有効にします。
- (オプション)StreamlitCopy
🎯 使用方法
1. CLIトランスクリプション
<input_audio>
: オーディオファイルへのパス<output_json>
: JSON結果が保存されるパス--model
: Whisper モデルのサイズを選択します (デフォルト: ベース)
例:
2. ドッカー
イメージをビルドします。
実行します(data/ フォルダをマウントします)。
次に検査します:
3. Streamlit Web UI
アプリを起動します:
- ブラウザでhttp://localhost:8501を開きます。
- 音声ファイルをアップロードする
- Whisperモデルのサイズを選択してください
- 「文字起こし」をクリック
- 結果のJSONをプレビューしてダウンロードする
📁 プロジェクト構造
This server cannot be installed
Whisper モデルを使用してオーディオ転写用のモデル コンテキスト プロトコルを実装する、ポータブルな Dockerized Python ツールです。オーディオ ファイルを JSON 転写に変換するための CLI と Web UI の両方のインターフェースを備えています。
Related MCP Servers
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -2Python
- -securityAlicense-qualityA Model Context Protocol server that allows AI assistants like Claude and Cursor to create music and control Sonic Pi programmatically through OSC messages.Last updated -JavaScriptMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.Last updated -11764JavaScriptThe Unlicense