MCP Audio Transcriber

MIT License
  • Linux

Integrations

  • Enables containerized deployment of the transcription service, making it portable and providing a consistent runtime environment.

  • Provides audio file processing capabilities, allowing the transcription service to handle various audio formats like .wav, .mp3, .ogg, and .m4a.

  • Integrates with OpenAI's Whisper models to provide high-quality, multi-language audio transcription with options for different model sizes.

MCP 오디오 필사기

OpenAI의 Whisper 모델을 사용하여 오디오 전사를 위한 모델 컨텍스트 프로토콜(MCP)을 구현하는 휴대형 Docker화된 Python 도구입니다. Streamlit 기반 웹 UI도 함께 제공되어 오디오 파일을 업로드하고 JSON으로 전사본을 다운로드할 수 있습니다.

🚀 특징

  • 표준 ModelContextProtocol 정의하는 모듈식 MCP 인터페이스 ( mcp.py ).
  • 고품질의 다국어 필사를 위한 Whisper 기반 구현 ( WhisperMCP )
  • 일괄 또는 임시 전사를 위한 명령줄 인터페이스 ( app.py ):지엑스피1
  • 일관된 런타임을 위한 Docker 지원 :
    docker build -t mcp-transcriber . docker run --rm \ -v /full/path/to/data:/data \ mcp-transcriber:latest \ /data/input.wav /data/output.json
  • Streamlit 웹 앱 ( streamlit_app.py )을 사용하면 최종 사용자는 다음을 수행할 수 있습니다.
    • 일반적인 오디오 파일(.wav, .mp3, .ogg, .m4a)을 업로드하세요.
    • Whisper 모델 크기를 선택하세요
    • 실시간으로 대본을 미리 보세요
    • 한 번의 클릭으로 JSON 결과를 다운로드하세요

📦 필수 조건

  • 파이썬 3.10+
  • ffmpeg가 설치되고 PATH에 등록됨
  • (선택 사항) Docker Engine / Docker Desktop
  • (선택 사항) Streamlit

🔧 설치

  1. 저장소를 복제합니다
    git clone https://github.com/ShreyasTembhare/MCP---Audio-Transcriber.git cd MCP---Audio-Transcriber
  2. 파이썬 종속성 및 FFmpeg
    pip install --upgrade pip pip install -r requirements.txt # On Ubuntu/Debian: sudo apt update && sudo apt install ffmpeg # On Windows: # Download a static build from https://ffmpeg.org and add its bin/ to your PATH
  3. (선택 사항) Docker
    • Docker Desktop 설치
    • WSL2를 사용하는 경우 WSL 통합을 활성화합니다.
  4. (선택 사항) Streamlit
    pip install streamlit

🎯 사용법

1. CLI 전사

python app.py <input_audio> <output_json> [--model tiny|base|small|medium|large]
  • <input_audio> : 오디오 파일 경로
  • <output_json> : JSON 결과가 저장될 경로
  • --model : Whisper 모델 크기를 선택합니다(기본값: 기본)

예:

python app.py data/input.ogg data/output.json --model tiny cat data/output.json

2. 도커

이미지 빌드:

docker build -t mcp-transcriber .

실행하세요(데이터/폴더를 마운트하세요):

docker run --rm \ -v "/full/path/to/your/project/data:/data" \ mcp-transcriber:latest \ /data/input.wav /data/output.json

그런 다음 검사하세요.

ls data/output.json cat data/output.json

3. 간소화된 웹 UI

앱을 실행하세요:

streamlit run streamlit_app.py
  • 브라우저에서 http://localhost:8501을 엽니다.
  • 오디오 파일 업로드
  • Whisper 모델 크기를 선택하세요
  • 클릭해서 필사하세요
  • 결과 JSON을 미리 보고 다운로드하세요

📁 프로젝트 구조

MCP-Audio-Transcriber/ ├── app.py # CLI entrypoint ├── mcp.py # Model Context Protocol + WhisperMCP ├── requirements.txt # Python dependencies ├── streamlit_app.py # Streamlit interface ├── Dockerfile # Container definition ├── .gitignore # ignore **pycache**, venvs, etc. ├── LICENSE # MIT license └── data/ # sample input and output ├── input.ogg └── output.json
-
security - not tested
A
license - permissive license
-
quality - not tested

Whisper 모델을 사용하여 오디오 전사를 위한 모델 컨텍스트 프로토콜을 구현하는 휴대형 Docker화된 Python 도구로, 오디오 파일을 JSON 전사본으로 변환하기 위한 CLI와 웹 UI 인터페이스를 모두 갖추고 있습니다.

  1. 🚀 특징
    1. 📦 필수 조건
      1. 🔧 설치
        1. 🎯 사용법
          1. CLI 전사
          2. 도커
          3. 간소화된 웹 UI
        2. 📁 프로젝트 구조

          Related MCP Servers

          • -
            security
            F
            license
            -
            quality
            Provides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.
            Last updated -
            2
            Python
          • -
            security
            A
            license
            -
            quality
            A Model Context Protocol server that allows AI assistants like Claude and Cursor to create music and control Sonic Pi programmatically through OSC messages.
            Last updated -
            JavaScript
            MIT License
          • A
            security
            A
            license
            A
            quality
            A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
            Last updated -
            1
            2
            JavaScript
            MIT License
            • Linux
            • Apple
          • A
            security
            A
            license
            A
            quality
            A Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.
            Last updated -
            1
            176
            4
            JavaScript
            The Unlicense
            • Apple
            • Linux

          View all related MCP servers

          ID: kts1za3i9v