MCP 오디오 필사기
AssemblyAI API를 통해 모델 컨텍스트 프로토콜(MCP)을 구현하는 Docker화된 Python 도구입니다. 오디오 파일을 업로드하거나 가리키면 구조화된 JSON 텍스트 변환을 받을 수 있습니다.
특징
AssemblyMCP : AssemblyAI의 REST API를 사용하는 구체적인 MCP 구현
명령줄 인터페이스 (
app.py):지엑스피1
Streamlit 웹 UI (
streamlit_app.py):로컬 파일 업로드 또는 URL 붙여넣기
클릭해서 필사하세요
대본을 미리 보고 JSON을 다운로드하세요
환경 일관성 및 이식성을 위한 Docker 지원
필수 조건
파이썬 3.10+
AssemblyAI API 키
ffmpeg(로컬 파일을 사용하는 경우 로컬 디코딩용)
(선택 사항) Docker Desktop/Engine
(선택 사항) Streamlit (
pip install streamlit)
🔧 설치
저장소를 복제합니다
git clone https://github.com/ShreyasTembhare/MCP---Audio-Transcriber.git cd MCP---Audio-Transcriber.env생성합니다ASSEMBLYAI_API_KEY=your_assemblyai_api_key_here.gitignore에 다음이 포함되어 있는지 확인하세요..envPython 종속성 설치
pip install --upgrade pip pip install -r requirements.txtffmpeg 설치
Ubuntu/Debian:
sudo apt update && sudo apt install ffmpeg -yWindows: https://ffmpeg.org 에서 다운로드하고
bin/을 PATH에 추가하세요.
용법
1. CLI 전사
<input_audio>: AssemblyAI에서 지원하는 모든 파일 또는 URL<output_json>: 생성된 JSON의 경로
예:
2. 간소화된 웹 UI
오디오 URL을 업로드하거나 입력하세요
클릭해서 필사하세요
JSON 결과 다운로드
3. 도커
이미지 빌드:
실행하세요(데이터/폴더를 마운트하세요):
그런 다음 검사하세요.
윈도우 PowerShell:
프로젝트 구조
This server cannot be installed
Related Resources
Related MCP Servers
- -securityAlicense-qualityEnables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.Last updated -6MIT License
- -security-license-qualityA Model Context Protocol server that provides AI-powered features for the Transcripter project, including tools for searching and summarizing transcriptions and resources for accessing transcription and analysis data.
- -securityFlicense-qualityEnables seamless integration with Typecast API through the Model Context Protocol, allowing clients to manage voices, convert text to speech, and play audio in a standardized way.Last updated -2
Gladia MCPofficial
-security-license-qualityOfficial Model Context Protocol server that enables interaction with powerful Speech-to-Text and Audio Intelligence APIs, allowing clients like Claude Desktop to transcribe audio, analyze speech, translate content, and more.