Skip to main content
Glama
SealinGp

MCP Video & Audio Text Extraction Server

by SealinGp

MCP 비디오 및 오디오 텍스트 추출 서버

다양한 비디오 플랫폼 및 오디오 파일에서 텍스트 추출 기능을 제공하는 MCP 서버입니다. 이 서버는 모델 컨텍스트 프로토콜(MCP)을 구현하여 오디오 전사 서비스에 대한 표준화된 접근을 제공합니다.

지원 플랫폼

이 서비스는 다음을 포함하되 이에 국한되지 않는 다양한 플랫폼에서 비디오를 다운로드하고 오디오를 추출하는 기능을 지원합니다.

  • 유튜브

  • 빌리빌리

  • 틱톡

  • 인스타그램

  • 트위터/X

  • 페이스북

  • 비메오

  • 데일리모션

  • 사운드클라우드

지원되는 플랫폼의 전체 목록을 보려면 yt-dlp 지원 사이트를 방문하세요.

Related MCP server: mcp-ytTranscript

핵심 기술

이 프로젝트는 MCP 도구를 통한 오디오-텍스트 처리를 위해 OpenAI의 Whisper 모델을 활용합니다. 서버는 네 가지 주요 도구를 제공합니다.

  1. 비디오 다운로드: 지원되는 플랫폼에서 비디오를 다운로드하세요

  2. 오디오 다운로드: 지원되는 플랫폼의 비디오에서 오디오 추출

  3. 비디오 텍스트 추출: 비디오에서 텍스트 추출(다운로드 및 필사)

  4. 오디오 파일 텍스트 추출: 오디오 파일에서 텍스트 추출

MCP 통합

이 서버는 다음을 제공하는 Model Context Protocol을 사용하여 구축되었습니다.

  • LLM에 도구를 노출하는 표준화된 방법

  • 비디오 콘텐츠 및 오디오 파일에 대한 보안 액세스

  • Claude Desktop과 같은 MCP 클라이언트와 통합

특징

  • Whisper 기반 고품질 음성 인식

  • 다국어 텍스트 인식

  • 다양한 오디오 포맷 지원(mp3, wav, m4a 등)

  • MCP 호환 도구 인터페이스

  • 대용량 파일에 대한 비동기 처리

기술 스택

  • 파이썬 3.10+

  • 모델 컨텍스트 프로토콜(MCP) Python SDK

  • yt-dlp(YouTube 비디오 다운로드)

  • openai-whisper(코어 오디오-텍스트 엔진)

  • 피단틱

시스템 요구 사항

  • FFmpeg(오디오 처리에 필요)

  • 최소 8GB RAM

  • 권장 GPU 가속(NVIDIA GPU + CUDA)

  • 충분한 디스크 공간(모델 다운로드 및 임시 파일용)

중요한 첫 번째 실행 공지

중요: 처음 실행 시 시스템이 Whisper 모델 파일(약 1GB)을 자동으로 다운로드합니다. 이 과정은 네트워크 상태에 따라 몇 분에서 수십 분 정도 걸릴 수 있습니다. 모델 파일은 로컬에 캐시되므로 이후 실행 시 다시 다운로드할 필요가 없습니다.

설치

uv 사용(권장)

uv를 사용하면 별도의 설치가 필요하지 않습니다. uvx를 사용하여 비디오 추출 서버를 직접 실행합니다.

지엑스피1

FFmpeg 설치

오디오 처리에는 FFmpeg가 필요합니다. 다양한 방법으로 설치할 수 있습니다.

# Ubuntu or Debian sudo apt update && sudo apt install ffmpeg # Arch Linux sudo pacman -S ffmpeg # MacOS brew install ffmpeg # Windows (using Chocolatey) choco install ffmpeg # Windows (using Scoop) scoop install ffmpeg

용법

Claude/Cursor에 대한 구성

Claude/Cursor 설정에 다음을 추가합니다.

"mcpServers": { "video-extraction": { "command": "uvx", "args": ["mcp-video-extraction"] } }

사용 가능한 MCP 도구

  1. 비디오 다운로드: 지원되는 플랫폼에서 비디오를 다운로드하세요

  2. 오디오 다운로드: 지원되는 플랫폼의 비디오에서 오디오 추출

  3. 비디오 텍스트 추출: 비디오에서 텍스트 추출(다운로드 및 필사)

  4. 오디오 파일 텍스트 추출: 오디오 파일에서 텍스트 추출

구성

서비스는 환경 변수를 통해 구성할 수 있습니다.

속삭임 구성

  • WHISPER_MODEL : Whisper 모델 크기(소형/기본/소형/중형/대형), 기본값: '기본'

  • WHISPER_LANGUAGE : 전사 언어 설정, 기본값: '자동'

YouTube 다운로드 구성

  • YOUTUBE_FORMAT : 다운로드용 비디오 형식, 기본값: 'bestaudio'

  • AUDIO_FORMAT : 추출을 위한 오디오 형식, 기본값: 'mp3'

  • AUDIO_QUALITY : 오디오 품질 설정, 기본값: '192'

스토리지 구성

  • TEMP_DIR : 임시 파일 저장 위치, 기본값: '/tmp/mcp-video'

다운로드 설정

  • DOWNLOAD_RETRIES : 다운로드 재시도 횟수, 기본값: 10

  • FRAGMENT_RETRIES : 조각 다운로드 재시도 횟수, 기본값: 10

  • SOCKET_TIMEOUT : 소켓 시간 초과(초), 기본값: 30

성능 최적화 팁

  1. GPU 가속:

    • CUDA와 cuDNN 설치

    • PyTorch의 GPU 버전이 설치되어 있는지 확인하세요.

  2. 모델 크기 조정:

    • tiny: 가장 빠르지만 정확도는 낮음

    • 베이스: 균형 잡힌 속도와 정확성

    • 대형: 정확도는 가장 높지만 리소스가 더 많이 필요합니다.

  3. 임시 파일에 SSD 스토리지를 사용하여 I/O 성능을 향상시키세요.

노트

  • Whisper 모델(약 1GB)은 첫 실행 시 다운로드해야 합니다.

  • 임시 오디오 파일을 위한 충분한 디스크 공간을 확보하세요

  • YouTube 동영상 다운로드를 위해서는 안정적인 네트워크 연결이 필요합니다.

  • 더 빠른 오디오 처리를 위해 GPU 권장

  • 긴 영상을 처리하는 데는 상당한 시간이 걸릴 수 있습니다.

MCP 통합 가이드

이 서버는 다음과 같은 모든 MCP 호환 클라이언트와 함께 사용할 수 있습니다.

  • 클로드 데스크탑

  • 맞춤형 MCP 클라이언트

  • 기타 MCP 지원 애플리케이션

MCP에 대한 자세한 내용은 Model Context Protocol을 방문하세요.

선적 서류 비치

이 문서의 중국어 버전은 README_zh.md 를 참조하세요.

특허

MIT

-
security - not tested
F
license - not found
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/SealinGp/mcp-video-extraction'

If you have feedback or need assistance with the MCP directory API, please join our Discord server