Integrations
Enables containerized deployment of the transcription service, making it portable and providing a consistent runtime environment.
Provides audio file processing capabilities, allowing the transcription service to handle various audio formats like .wav, .mp3, .ogg, and .m4a.
Integrates with OpenAI's Whisper models to provide high-quality, multi-language audio transcription with options for different model sizes.
MCP 오디오 필사기
OpenAI의 Whisper 모델을 사용하여 오디오 전사를 위한 모델 컨텍스트 프로토콜(MCP)을 구현하는 휴대형 Docker화된 Python 도구입니다. Streamlit 기반 웹 UI도 함께 제공되어 오디오 파일을 업로드하고 JSON으로 전사본을 다운로드할 수 있습니다.
🚀 특징
- 표준
ModelContextProtocol
정의하는 모듈식 MCP 인터페이스 (mcp.py
). - 고품질의 다국어 필사를 위한 Whisper 기반 구현 (
WhisperMCP
) - 일괄 또는 임시 전사를 위한 명령줄 인터페이스 (
app.py
):지엑스피1 - 일관된 런타임을 위한 Docker 지원 :Copy
- Streamlit 웹 앱 (
streamlit_app.py
)을 사용하면 최종 사용자는 다음을 수행할 수 있습니다.- 일반적인 오디오 파일(.wav, .mp3, .ogg, .m4a)을 업로드하세요.
- Whisper 모델 크기를 선택하세요
- 실시간으로 대본을 미리 보세요
- 한 번의 클릭으로 JSON 결과를 다운로드하세요
📦 필수 조건
- 파이썬 3.10+
- ffmpeg가 설치되고 PATH에 등록됨
- (선택 사항) Docker Engine / Docker Desktop
- (선택 사항) Streamlit
🔧 설치
- 저장소를 복제합니다Copy
- 파이썬 종속성 및 FFmpegCopy
- (선택 사항) Docker
- Docker Desktop 설치
- WSL2를 사용하는 경우 WSL 통합을 활성화합니다.
- (선택 사항) StreamlitCopy
🎯 사용법
1. CLI 전사
Copy
<input_audio>
: 오디오 파일 경로<output_json>
: JSON 결과가 저장될 경로--model
: Whisper 모델 크기를 선택합니다(기본값: 기본)
예:
Copy
2. 도커
이미지 빌드:
Copy
실행하세요(데이터/폴더를 마운트하세요):
Copy
그런 다음 검사하세요.
Copy
3. 간소화된 웹 UI
앱을 실행하세요:
Copy
- 브라우저에서 http://localhost:8501을 엽니다.
- 오디오 파일 업로드
- Whisper 모델 크기를 선택하세요
- 클릭해서 필사하세요
- 결과 JSON을 미리 보고 다운로드하세요
📁 프로젝트 구조
Copy
Related MCP Servers
- -securityFlicense-qualityProvides text-to-speech capabilities through the Model Context Protocol, allowing applications to easily integrate speech synthesis with customizable voices, adjustable speech speed, and cross-platform audio playback support.Last updated -2Python
- -securityAlicense-qualityA Model Context Protocol server that allows AI assistants like Claude and Cursor to create music and control Sonic Pi programmatically through OSC messages.Last updated -JavaScriptMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- AsecurityAlicenseAqualityA Model Context Protocol server that enables AI models to generate and play high-quality text-to-speech audio through your device's native audio system using Rime's voice synthesis API.Last updated -11764JavaScriptThe Unlicense