MCP Audio Transcriber

MIT License
  • Linux

Integrations

  • Enables containerized deployment of the transcription service, making it portable and providing a consistent runtime environment.

  • Provides audio file processing capabilities, allowing the transcription service to handle various audio formats like .wav, .mp3, .ogg, and .m4a.

  • Integrates with OpenAI's Whisper models to provide high-quality, multi-language audio transcription with options for different model sizes.

MCP オーディオトランスクリプター

OpenAI の Whisper モデルを使用してオーディオ文字起こし用の**モデル コンテキスト プロトコル (MCP)**を実装した、ポータブルな Docker 化された Python ツールです。Streamlit を利用した Web UI も付属しており、オーディオ ファイルをアップロードして、文字起こしを JSON としてダウンロードできます。

🚀 機能

  • 標準ModelContextProtocolを定義するモジュラー MCP インターフェース( mcp.py )。
  • 高品質、多言語文字起こしのためのWhisper ベースの実装( WhisperMCP )。
  • バッチまたはアドホック転写用のコマンドラインインターフェース( app.py ):
    python app.py <input_audio> <output_json> [--model MODEL_NAME]
  • 一貫したランタイムのためのDocker サポート:
    docker build -t mcp-transcriber . docker run --rm \ -v /full/path/to/data:/data \ mcp-transcriber:latest \ /data/input.wav /data/output.json
  • Streamlit Web アプリ( streamlit_app.py ) では、エンド ユーザーが次の操作を実行できます。
    • 一般的なオーディオファイル(.wav、.mp3、.ogg、.m4a)をアップロードします。
    • Whisperモデルのサイズを選択してください
    • ライブでトランスクリプションをプレビューする
    • ワンクリックでJSON結果をダウンロード

📦 前提条件

  • Python 3.10以上
  • ffmpeg がインストールされ、PATH に設定されている
  • (オプション)Docker Engine / Docker Desktop
  • (オプション)Streamlit

🔧 インストール

  1. リポジトリをクローンする
    git clone https://github.com/ShreyasTembhare/MCP---Audio-Transcriber.git cd MCP---Audio-Transcriber
  2. Python の依存関係と FFmpeg
    pip install --upgrade pip pip install -r requirements.txt # On Ubuntu/Debian: sudo apt update && sudo apt install ffmpeg # On Windows: # Download a static build from https://ffmpeg.org and add its bin/ to your PATH
  3. (オプション)Docker
    • Dockerデスクトップをインストールする
    • WSL2 を使用する場合は、WSL 統合を有効にします。
  4. (オプション)Streamlit
    pip install streamlit

🎯 使用方法

1. CLIトランスクリプション

python app.py <input_audio> <output_json> [--model tiny|base|small|medium|large]
  • <input_audio> : オーディオファイルへのパス
  • <output_json> : JSON結果が保存されるパス
  • --model : Whisper モデルのサイズを選択します (デフォルト: ベース)

例:

python app.py data/input.ogg data/output.json --model tiny cat data/output.json

2. ドッカー

イメージをビルドします。

docker build -t mcp-transcriber .

実行します(data/ フォルダをマウントします)。

docker run --rm \ -v "/full/path/to/your/project/data:/data" \ mcp-transcriber:latest \ /data/input.wav /data/output.json

次に検査します:

ls data/output.json cat data/output.json

3. Streamlit Web UI

アプリを起動します:

streamlit run streamlit_app.py
  • ブラウザでhttp://localhost:8501を開きます。
  • 音声ファイルをアップロードする
  • Whisperモデルのサイズを選択してください
  • 「文字起こし」をクリック
  • 結果のJSONをプレビューしてダウンロードする

📁 プロジェクト構造

MCP-Audio-Transcriber/ ├── app.py # CLI entrypoint ├── mcp.py # Model Context Protocol + WhisperMCP ├── requirements.txt # Python dependencies ├── streamlit_app.py # Streamlit interface ├── Dockerfile # Container definition ├── .gitignore # ignore **pycache**, venvs, etc. ├── LICENSE # MIT license └── data/ # sample input and output ├── input.ogg └── output.json
-
security - not tested
A
license - permissive license
-
quality - not tested

Whisper モデルを使用してオーディオ転写用のモデル コンテキスト プロトコルを実装する、ポータブルな Dockerized Python ツールです。オーディオ ファイルを JSON 転写に変換するための CLI と Web UI の両方のインターフェースを備えています。

  1. 🚀 機能
    1. 📦 前提条件
      1. 🔧 インストール
        1. 🎯 使用方法
          1. CLIトランスクリプション
          2. ドッカー
          3. Streamlit Web UI
        2. 📁 プロジェクト構造

          Related MCP Servers

          • -
            security
            F
            license
            -
            quality
            Provides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.
            Last updated -
            2
            Python
          • -
            security
            A
            license
            -
            quality
            A Model Context Protocol server that allows AI assistants like Claude and Cursor to create music and control Sonic Pi programmatically through OSC messages.
            Last updated -
            JavaScript
            MIT License
          • A
            security
            A
            license
            A
            quality
            A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
            Last updated -
            1
            2
            JavaScript
            MIT License
            • Linux
            • Apple
          • A
            security
            A
            license
            A
            quality
            A Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.
            Last updated -
            1
            176
            4
            JavaScript
            The Unlicense
            • Apple
            • Linux

          View all related MCP servers

          ID: kts1za3i9v