MCP 비디오 및 오디오 텍스트 추출 서버

다양한 비디오 플랫폼 및 오디오 파일에서 텍스트 추출 기능을 제공하는 MCP 서버입니다. 이 서버는 모델 컨텍스트 프로토콜(MCP)을 구현하여 오디오 전사 서비스에 대한 표준화된 접근을 제공합니다.

지원 플랫폼

이 서비스는 다음을 포함하되 이에 국한되지 않는 다양한 플랫폼에서 비디오를 다운로드하고 오디오를 추출하는 기능을 지원합니다.

유튜브
빌리빌리
틱톡
인스타그램
트위터/X
페이스북
비메오
데일리모션
사운드클라우드

지원되는 플랫폼의 전체 목록을 보려면 yt-dlp 지원 사이트를 방문하세요.

핵심 기술

이 프로젝트는 MCP 도구를 통한 오디오-텍스트 처리를 위해 OpenAI의 Whisper 모델을 활용합니다. 서버는 네 가지 주요 도구를 제공합니다.

비디오 다운로드: 지원되는 플랫폼에서 비디오를 다운로드하세요
오디오 다운로드: 지원되는 플랫폼의 비디오에서 오디오 추출
비디오 텍스트 추출: 비디오에서 텍스트 추출(다운로드 및 필사)
오디오 파일 텍스트 추출: 오디오 파일에서 텍스트 추출

MCP 통합

이 서버는 다음을 제공하는 Model Context Protocol을 사용하여 구축되었습니다.

LLM에 도구를 노출하는 표준화된 방법
비디오 콘텐츠 및 오디오 파일에 대한 보안 액세스
Claude Desktop과 같은 MCP 클라이언트와 통합

특징

Whisper 기반 고품질 음성 인식
다국어 텍스트 인식
다양한 오디오 포맷 지원(mp3, wav, m4a 등)
MCP 호환 도구 인터페이스
대용량 파일에 대한 비동기 처리

기술 스택

파이썬 3.10+
모델 컨텍스트 프로토콜(MCP) Python SDK
yt-dlp(YouTube 비디오 다운로드)
openai-whisper(코어 오디오-텍스트 엔진)
피단틱

시스템 요구 사항

FFmpeg(오디오 처리에 필요)
최소 8GB RAM
권장 GPU 가속(NVIDIA GPU + CUDA)
충분한 디스크 공간(모델 다운로드 및 임시 파일용)

중요한 첫 번째 실행 공지

중요: 처음 실행 시 시스템이 Whisper 모델 파일(약 1GB)을 자동으로 다운로드합니다. 이 과정은 네트워크 상태에 따라 몇 분에서 수십 분 정도 걸릴 수 있습니다. 모델 파일은 로컬에 캐시되므로 이후 실행 시 다시 다운로드할 필요가 없습니다.

설치

uv 사용(권장)

uv를 사용하면 별도의 설치가 필요하지 않습니다. uvx를 사용하여 비디오 추출 서버를 직접 실행합니다.

지엑스피1

FFmpeg 설치

오디오 처리에는 FFmpeg가 필요합니다. 다양한 방법으로 설치할 수 있습니다.

# Ubuntu or Debian sudo apt update && sudo apt install ffmpeg # Arch Linux sudo pacman -S ffmpeg # MacOS brew install ffmpeg # Windows (using Chocolatey) choco install ffmpeg # Windows (using Scoop) scoop install ffmpeg

용법

Claude/Cursor에 대한 구성

Claude/Cursor 설정에 다음을 추가합니다.

"mcpServers": { "video-extraction": { "command": "uvx", "args": ["mcp-video-extraction"] } }

사용 가능한 MCP 도구

비디오 다운로드: 지원되는 플랫폼에서 비디오를 다운로드하세요
오디오 다운로드: 지원되는 플랫폼의 비디오에서 오디오 추출
비디오 텍스트 추출: 비디오에서 텍스트 추출(다운로드 및 필사)
오디오 파일 텍스트 추출: 오디오 파일에서 텍스트 추출

구성

서비스는 환경 변수를 통해 구성할 수 있습니다.

속삭임 구성

WHISPER_MODEL : Whisper 모델 크기(소형/기본/소형/중형/대형), 기본값: '기본'
WHISPER_LANGUAGE : 전사 언어 설정, 기본값: '자동'

YouTube 다운로드 구성

YOUTUBE_FORMAT : 다운로드용 비디오 형식, 기본값: 'bestaudio'
AUDIO_FORMAT : 추출을 위한 오디오 형식, 기본값: 'mp3'
AUDIO_QUALITY : 오디오 품질 설정, 기본값: '192'

스토리지 구성

TEMP_DIR : 임시 파일 저장 위치, 기본값: '/tmp/mcp-video'

다운로드 설정

DOWNLOAD_RETRIES : 다운로드 재시도 횟수, 기본값: 10
FRAGMENT_RETRIES : 조각 다운로드 재시도 횟수, 기본값: 10
SOCKET_TIMEOUT : 소켓 시간 초과(초), 기본값: 30

성능 최적화 팁

GPU 가속:
- CUDA와 cuDNN 설치
- PyTorch의 GPU 버전이 설치되어 있는지 확인하세요.
모델 크기 조정:
- tiny: 가장 빠르지만 정확도는 낮음
- 베이스: 균형 잡힌 속도와 정확성
- 대형: 정확도는 가장 높지만 리소스가 더 많이 필요합니다.
임시 파일에 SSD 스토리지를 사용하여 I/O 성능을 향상시키세요.

노트

Whisper 모델(약 1GB)은 첫 실행 시 다운로드해야 합니다.
임시 오디오 파일을 위한 충분한 디스크 공간을 확보하세요
YouTube 동영상 다운로드를 위해서는 안정적인 네트워크 연결이 필요합니다.
더 빠른 오디오 처리를 위해 GPU 권장
긴 영상을 처리하는 데는 상당한 시간이 걸릴 수 있습니다.

MCP 통합 가이드

이 서버는 다음과 같은 모든 MCP 호환 클라이언트와 함께 사용할 수 있습니다.

클로드 데스크탑
맞춤형 MCP 클라이언트
기타 MCP 지원 애플리케이션

MCP에 대한 자세한 내용은 Model Context Protocol을 방문하세요.

선적 서류 비치

이 문서의 중국어 버전은 README_zh.md 를 참조하세요.

특허

MIT

This server cannot be installed

-

security - not tested

F

license - not found

-

quality - not tested

How are these scores calculated?

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

YouTube, Bilibili, TikTok 등 다양한 플랫폼에서 비디오를 다운로드하거나 오디오를 추출한 다음 OpenAI의 Whisper 모델을 사용하여 텍스트로 변환하는 MCP 서버입니다.

Related MCP Servers

Audio Transcriber MCP Server
Ichigo3766
A
security
A
license
A
quality
A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
Last updated -
1
0
7
MIT License
mcp-ytTranscript
Dan-Camargo
-
security
F
license
-
quality
Simple MCP server that returns the transcription of a Youtube video using url and desired language.
Last updated -
BiliMind-MCP
jiaohuix
-
security
F
license
-
quality
An MCP server that generates structured notes from Bilibili videos by automatically downloading audio, transcribing with Whisper, and processing through LLM.
Last updated -
6
Voice to Text MCP Server
gongjiaben
-
security
F
license
-
quality
A powerful speech-to-text MCP server that supports multiple audio formats and recognition engines including remote APIs (Bailian, OpenAI Whisper, iFLYTEK), Google Speech Recognition, and CMU Sphinx.
Last updated -

View all related MCP servers

MCP Video & Audio Text Extraction Server