Skip to main content
Glama

MCP Audio Transcriber

MCP オーディオトランスクリプター

AssemblyAIのAPIを介してモデルコンテキストプロトコル(MCP)を実装する、Docker化されたPythonツールです。音声ファイルをアップロードまたは指定すると、構造化されたJSON形式の文字起こしが提供されます。

特徴

  • AssemblyMCP : AssemblyAIのREST APIを使用する具体的なMCP実装
  • コマンドラインインターフェース( app.py ):
    python app.py <input_audio> <output_json>
  • Streamlit ウェブ UI ( streamlit_app.py ):
    • ローカルファイルをアップロードするか、URLを貼り付けます
    • 「文字起こし」をクリック
    • トランスクリプトをプレビューし、JSON をダウンロードする
  • 環境の一貫性と移植性のためのDocker サポート

前提条件

  • Python 3.10以上
  • AssemblyAI APIキー
  • ffmpeg (ローカルファイルを使用する場合のローカルデコード用)
  • (オプション)Dockerデスクトップ/エンジン
  • (オプション)Streamlit( pip install streamlit

🔧 インストール

  1. リポジトリをクローンする
    git clone https://github.com/ShreyasTembhare/MCP---Audio-Transcriber.git cd MCP---Audio-Transcriber
  2. .envを作成する
    ASSEMBLYAI_API_KEY=your_assemblyai_api_key_here
  3. .gitignoreに以下が含まれていることを確認します。
    .env
  4. Pythonの依存関係をインストールする
    pip install --upgrade pip pip install -r requirements.txt
  5. ffmpegをインストールする
    • Ubuntu/Debian: sudo apt update && sudo apt install ffmpeg -y
    • Windows: https://ffmpeg.orgからダウンロードし、 bin/ PATH に追加します。

使用法

1. CLIトランスクリプション

python app.py <input_audio> <output_json>
  • <input_audio> : AssemblyAI でサポートされている任意のファイルまたは URL
  • <output_json> : 生成されたJSONのパス

例:

python app.py data/input.ogg data/output.json cat data/output.json

2. Streamlit Web UI

streamlit run streamlit_app.py
  • http://localhost:8501を開きます。
  • オーディオURLをアップロードまたは入力してください
  • 「文字起こし」をクリック
  • JSON結果をダウンロードする

3. ドッカー

イメージをビルドします。

docker build -t mcp-transcriber .

実行します(data/ フォルダをマウントします)。

docker run --rm \ -e ASSEMBLYAI_API_KEY="$ASSEMBLYAI_API_KEY" \ -v "$(pwd)/data:/data" \ mcp-transcriber:latest \ /data/input.ogg /data/output.json

次に検査します:

ls data/output.json cat data/output.json

Windows PowerShell:

docker run --rm ` -e ASSEMBLYAI_API_KEY=$env:ASSEMBLYAI_API_KEY ` -v "${PWD}\data:/data" ` mcp-transcriber:latest ` /data/input.ogg /data/output.json

プロジェクト構造

MCP-Audio-Transcriber/ ├── app.py # CLI entrypoint (AssemblyMCP only) ├── mcp.py # ModelContextProtocol + AssemblyMCP ├── streamlit_app.py # Streamlit interface ├── requirements.txt # assemblyai, python-dotenv, streamlit, etc. ├── Dockerfile # builds the container ├── .gitignore # ignores .env, __pycache__, etc. ├── LICENSE # MIT license └── data/ # sample input and output ├── input.ogg └── output.json
-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

Whisper モデルを使用してオーディオ転写用のモデル コンテキスト プロトコルを実装する、ポータブルな Dockerized Python ツールです。オーディオ ファイルを JSON 転写に変換するための CLI と Web UI の両方のインターフェースを備えています。

  1. 特徴
    1. 前提条件
      1. 🔧 インストール
        1. 使用法
          1. 1. CLIトランスクリプション
          2. 2. Streamlit Web UI
          3. 3. ドッカー
        2. プロジェクト構造

          Related MCP Servers

          • -
            security
            A
            license
            -
            quality
            Enables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.
            Last updated -
            6
            MIT License
          • -
            security
            F
            license
            -
            quality
            A Model Context Protocol server that provides AI-powered features for the Transcripter project, including tools for searching and summarizing transcriptions and resources for accessing transcription and analysis data.
            Last updated -
            620
          • -
            security
            F
            license
            -
            quality
            Enables seamless integration with Typecast API through the Model Context Protocol, allowing clients to manage voices, convert text to speech, and play audio in a standardized way.
            Last updated -
            2
          • -
            security
            A
            license
            -
            quality
            Official Model Context Protocol server that enables interaction with powerful Speech-to-Text and Audio Intelligence APIs, allowing clients like Claude Desktop to transcribe audio, analyze speech, translate content, and more.
            Last updated -
            2
            MIT License

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/ShreyasTembhare/MCP---Audio-Transcriber'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server