MCP 비디오 및 오디오 텍스트 추출 서버
다양한 비디오 플랫폼 및 오디오 파일에서 텍스트 추출 기능을 제공하는 MCP 서버입니다. 이 서버는 모델 컨텍스트 프로토콜(MCP)을 구현하여 오디오 전사 서비스에 대한 표준화된 접근을 제공합니다.
지원 플랫폼
이 서비스는 다음을 포함하되 이에 국한되지 않는 다양한 플랫폼에서 비디오를 다운로드하고 오디오를 추출하는 기능을 지원합니다.
- 유튜브
- 빌리빌리
- 틱톡
- 인스타그램
- 트위터/X
- 페이스북
- 비메오
- 데일리모션
- 사운드클라우드
지원되는 플랫폼의 전체 목록을 보려면 yt-dlp 지원 사이트를 방문하세요.
핵심 기술
이 프로젝트는 MCP 도구를 통한 오디오-텍스트 처리를 위해 OpenAI의 Whisper 모델을 활용합니다. 서버는 네 가지 주요 도구를 제공합니다.
- 비디오 다운로드: 지원되는 플랫폼에서 비디오를 다운로드하세요
- 오디오 다운로드: 지원되는 플랫폼의 비디오에서 오디오 추출
- 비디오 텍스트 추출: 비디오에서 텍스트 추출(다운로드 및 필사)
- 오디오 파일 텍스트 추출: 오디오 파일에서 텍스트 추출
MCP 통합
이 서버는 다음을 제공하는 Model Context Protocol을 사용하여 구축되었습니다.
- LLM에 도구를 노출하는 표준화된 방법
- 비디오 콘텐츠 및 오디오 파일에 대한 보안 액세스
- Claude Desktop과 같은 MCP 클라이언트와 통합
특징
- Whisper 기반 고품질 음성 인식
- 다국어 텍스트 인식
- 다양한 오디오 포맷 지원(mp3, wav, m4a 등)
- MCP 호환 도구 인터페이스
- 대용량 파일에 대한 비동기 처리
기술 스택
- 파이썬 3.10+
- 모델 컨텍스트 프로토콜(MCP) Python SDK
- yt-dlp(YouTube 비디오 다운로드)
- openai-whisper(코어 오디오-텍스트 엔진)
- 피단틱
시스템 요구 사항
- FFmpeg(오디오 처리에 필요)
- 최소 8GB RAM
- 권장 GPU 가속(NVIDIA GPU + CUDA)
- 충분한 디스크 공간(모델 다운로드 및 임시 파일용)
중요한 첫 번째 실행 공지
중요: 처음 실행 시 시스템이 Whisper 모델 파일(약 1GB)을 자동으로 다운로드합니다. 이 과정은 네트워크 상태에 따라 몇 분에서 수십 분 정도 걸릴 수 있습니다. 모델 파일은 로컬에 캐시되므로 이후 실행 시 다시 다운로드할 필요가 없습니다.
설치
uv 사용(권장)
uv를 사용하면 별도의 설치가 필요하지 않습니다. uvx를 사용하여 비디오 추출 서버를 직접 실행합니다.
지엑스피1
FFmpeg 설치
오디오 처리에는 FFmpeg가 필요합니다. 다양한 방법으로 설치할 수 있습니다.
용법
Claude/Cursor에 대한 구성
Claude/Cursor 설정에 다음을 추가합니다.
사용 가능한 MCP 도구
- 비디오 다운로드: 지원되는 플랫폼에서 비디오를 다운로드하세요
- 오디오 다운로드: 지원되는 플랫폼의 비디오에서 오디오 추출
- 비디오 텍스트 추출: 비디오에서 텍스트 추출(다운로드 및 필사)
- 오디오 파일 텍스트 추출: 오디오 파일에서 텍스트 추출
구성
서비스는 환경 변수를 통해 구성할 수 있습니다.
속삭임 구성
WHISPER_MODEL
: Whisper 모델 크기(소형/기본/소형/중형/대형), 기본값: '기본'WHISPER_LANGUAGE
: 전사 언어 설정, 기본값: '자동'
YouTube 다운로드 구성
YOUTUBE_FORMAT
: 다운로드용 비디오 형식, 기본값: 'bestaudio'AUDIO_FORMAT
: 추출을 위한 오디오 형식, 기본값: 'mp3'AUDIO_QUALITY
: 오디오 품질 설정, 기본값: '192'
스토리지 구성
TEMP_DIR
: 임시 파일 저장 위치, 기본값: '/tmp/mcp-video'
다운로드 설정
DOWNLOAD_RETRIES
: 다운로드 재시도 횟수, 기본값: 10FRAGMENT_RETRIES
: 조각 다운로드 재시도 횟수, 기본값: 10SOCKET_TIMEOUT
: 소켓 시간 초과(초), 기본값: 30
성능 최적화 팁
- GPU 가속:
- CUDA와 cuDNN 설치
- PyTorch의 GPU 버전이 설치되어 있는지 확인하세요.
- 모델 크기 조정:
- tiny: 가장 빠르지만 정확도는 낮음
- 베이스: 균형 잡힌 속도와 정확성
- 대형: 정확도는 가장 높지만 리소스가 더 많이 필요합니다.
- 임시 파일에 SSD 스토리지를 사용하여 I/O 성능을 향상시키세요.
노트
- Whisper 모델(약 1GB)은 첫 실행 시 다운로드해야 합니다.
- 임시 오디오 파일을 위한 충분한 디스크 공간을 확보하세요
- YouTube 동영상 다운로드를 위해서는 안정적인 네트워크 연결이 필요합니다.
- 더 빠른 오디오 처리를 위해 GPU 권장
- 긴 영상을 처리하는 데는 상당한 시간이 걸릴 수 있습니다.
MCP 통합 가이드
이 서버는 다음과 같은 모든 MCP 호환 클라이언트와 함께 사용할 수 있습니다.
- 클로드 데스크탑
- 맞춤형 MCP 클라이언트
- 기타 MCP 지원 애플리케이션
MCP에 대한 자세한 내용은 Model Context Protocol을 방문하세요.
선적 서류 비치
이 문서의 중국어 버전은 README_zh.md 를 참조하세요.
특허
MIT
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
YouTube, Bilibili, TikTok 등 다양한 플랫폼에서 비디오를 다운로드하거나 오디오를 추출한 다음 OpenAI의 Whisper 모델을 사용하여 텍스트로 변환하는 MCP 서버입니다.
Related MCP Servers
- -securityAlicense-qualityEnables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.Last updated -4PythonMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- -securityFlicense-qualitySimple MCP server that returns the transcription of a Youtube video using url and desired language.Last updated -Python
- -securityAlicense-qualityAn MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.Last updated -41JavaScriptMIT License