MCP Video & Audio Text Extraction Server

by SealinGp

Integrations

  • Supports downloading videos and extracting audio content for transcription using Whisper

  • Enables downloading videos and extracting audio content for transcription using Whisper

  • Supports downloading videos and extracting audio content for transcription using Whisper

MCP 비디오 및 오디오 텍스트 추출 서버

다양한 비디오 플랫폼 및 오디오 파일에서 텍스트 추출 기능을 제공하는 MCP 서버입니다. 이 서버는 모델 컨텍스트 프로토콜(MCP)을 구현하여 오디오 전사 서비스에 대한 표준화된 접근을 제공합니다.

지원 플랫폼

이 서비스는 다음을 포함하되 이에 국한되지 않는 다양한 플랫폼에서 비디오를 다운로드하고 오디오를 추출하는 기능을 지원합니다.

  • 유튜브
  • 빌리빌리
  • 틱톡
  • 인스타그램
  • 트위터/X
  • 페이스북
  • 비메오
  • 데일리모션
  • 사운드클라우드

지원되는 플랫폼의 전체 목록을 보려면 yt-dlp 지원 사이트를 방문하세요.

핵심 기술

이 프로젝트는 MCP 도구를 통한 오디오-텍스트 처리를 위해 OpenAI의 Whisper 모델을 활용합니다. 서버는 네 가지 주요 도구를 제공합니다.

  1. 비디오 다운로드: 지원되는 플랫폼에서 비디오를 다운로드하세요
  2. 오디오 다운로드: 지원되는 플랫폼의 비디오에서 오디오 추출
  3. 비디오 텍스트 추출: 비디오에서 텍스트 추출(다운로드 및 필사)
  4. 오디오 파일 텍스트 추출: 오디오 파일에서 텍스트 추출

MCP 통합

이 서버는 다음을 제공하는 Model Context Protocol을 사용하여 구축되었습니다.

  • LLM에 도구를 노출하는 표준화된 방법
  • 비디오 콘텐츠 및 오디오 파일에 대한 보안 액세스
  • Claude Desktop과 같은 MCP 클라이언트와 통합

특징

  • Whisper 기반 고품질 음성 인식
  • 다국어 텍스트 인식
  • 다양한 오디오 포맷 지원(mp3, wav, m4a 등)
  • MCP 호환 도구 인터페이스
  • 대용량 파일에 대한 비동기 처리

기술 스택

  • 파이썬 3.10+
  • 모델 컨텍스트 프로토콜(MCP) Python SDK
  • yt-dlp(YouTube 비디오 다운로드)
  • openai-whisper(코어 오디오-텍스트 엔진)
  • 피단틱

시스템 요구 사항

  • FFmpeg(오디오 처리에 필요)
  • 최소 8GB RAM
  • 권장 GPU 가속(NVIDIA GPU + CUDA)
  • 충분한 디스크 공간(모델 다운로드 및 임시 파일용)

중요한 첫 번째 실행 공지

중요: 처음 실행 시 시스템이 Whisper 모델 파일(약 1GB)을 자동으로 다운로드합니다. 이 과정은 네트워크 상태에 따라 몇 분에서 수십 분 정도 걸릴 수 있습니다. 모델 파일은 로컬에 캐시되므로 이후 실행 시 다시 다운로드할 필요가 없습니다.

설치

uv 사용(권장)

uv를 사용하면 별도의 설치가 필요하지 않습니다. uvx를 사용하여 비디오 추출 서버를 직접 실행합니다.

지엑스피1

FFmpeg 설치

오디오 처리에는 FFmpeg가 필요합니다. 다양한 방법으로 설치할 수 있습니다.

# Ubuntu or Debian sudo apt update && sudo apt install ffmpeg # Arch Linux sudo pacman -S ffmpeg # MacOS brew install ffmpeg # Windows (using Chocolatey) choco install ffmpeg # Windows (using Scoop) scoop install ffmpeg

용법

Claude/Cursor에 대한 구성

Claude/Cursor 설정에 다음을 추가합니다.

"mcpServers": { "video-extraction": { "command": "uvx", "args": ["mcp-video-extraction"] } }

사용 가능한 MCP 도구

  1. 비디오 다운로드: 지원되는 플랫폼에서 비디오를 다운로드하세요
  2. 오디오 다운로드: 지원되는 플랫폼의 비디오에서 오디오 추출
  3. 비디오 텍스트 추출: 비디오에서 텍스트 추출(다운로드 및 필사)
  4. 오디오 파일 텍스트 추출: 오디오 파일에서 텍스트 추출

구성

서비스는 환경 변수를 통해 구성할 수 있습니다.

속삭임 구성

  • WHISPER_MODEL : Whisper 모델 크기(소형/기본/소형/중형/대형), 기본값: '기본'
  • WHISPER_LANGUAGE : 전사 언어 설정, 기본값: '자동'

YouTube 다운로드 구성

  • YOUTUBE_FORMAT : 다운로드용 비디오 형식, 기본값: 'bestaudio'
  • AUDIO_FORMAT : 추출을 위한 오디오 형식, 기본값: 'mp3'
  • AUDIO_QUALITY : 오디오 품질 설정, 기본값: '192'

스토리지 구성

  • TEMP_DIR : 임시 파일 저장 위치, 기본값: '/tmp/mcp-video'

다운로드 설정

  • DOWNLOAD_RETRIES : 다운로드 재시도 횟수, 기본값: 10
  • FRAGMENT_RETRIES : 조각 다운로드 재시도 횟수, 기본값: 10
  • SOCKET_TIMEOUT : 소켓 시간 초과(초), 기본값: 30

성능 최적화 팁

  1. GPU 가속:
    • CUDA와 cuDNN 설치
    • PyTorch의 GPU 버전이 설치되어 있는지 확인하세요.
  2. 모델 크기 조정:
    • tiny: 가장 빠르지만 정확도는 낮음
    • 베이스: 균형 잡힌 속도와 정확성
    • 대형: 정확도는 가장 높지만 리소스가 더 많이 필요합니다.
  3. 임시 파일에 SSD 스토리지를 사용하여 I/O 성능을 향상시키세요.

노트

  • Whisper 모델(약 1GB)은 첫 실행 시 다운로드해야 합니다.
  • 임시 오디오 파일을 위한 충분한 디스크 공간을 확보하세요
  • YouTube 동영상 다운로드를 위해서는 안정적인 네트워크 연결이 필요합니다.
  • 더 빠른 오디오 처리를 위해 GPU 권장
  • 긴 영상을 처리하는 데는 상당한 시간이 걸릴 수 있습니다.

MCP 통합 가이드

이 서버는 다음과 같은 모든 MCP 호환 클라이언트와 함께 사용할 수 있습니다.

  • 클로드 데스크탑
  • 맞춤형 MCP 클라이언트
  • 기타 MCP 지원 애플리케이션

MCP에 대한 자세한 내용은 Model Context Protocol을 방문하세요.

선적 서류 비치

이 문서의 중국어 버전은 README_zh.md 를 참조하세요.

특허

MIT

-
security - not tested
F
license - not found
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

YouTube, Bilibili, TikTok 등 다양한 플랫폼에서 비디오를 다운로드하거나 오디오를 추출한 다음 OpenAI의 Whisper 모델을 사용하여 텍스트로 변환하는 MCP 서버입니다.

  1. 지원 플랫폼
    1. 핵심 기술
      1. MCP 통합
    2. 특징
      1. 기술 스택
        1. 시스템 요구 사항
          1. 중요한 첫 번째 실행 공지
            1. 설치
              1. uv 사용(권장)
              2. FFmpeg 설치
            2. 용법
              1. Claude/Cursor에 대한 구성
              2. 사용 가능한 MCP 도구
            3. 구성
              1. 속삭임 구성
              2. YouTube 다운로드 구성
              3. 스토리지 구성
              4. 다운로드 설정
            4. 성능 최적화 팁
              1. 노트
                1. MCP 통합 가이드
                  1. 선적 서류 비치
                    1. 특허

                      Related MCP Servers

                      • -
                        security
                        A
                        license
                        -
                        quality
                        Enables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.
                        Last updated -
                        4
                        Python
                        MIT License
                      • A
                        security
                        A
                        license
                        A
                        quality
                        A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
                        Last updated -
                        1
                        2
                        JavaScript
                        MIT License
                        • Linux
                        • Apple
                      • -
                        security
                        F
                        license
                        -
                        quality
                        Simple MCP server that returns the transcription of a Youtube video using url and desired language.
                        Last updated -
                        Python
                      • -
                        security
                        -
                        license
                        -
                        quality
                        An MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.
                        Last updated -
                        1
                        JavaScript
                        MIT License

                      View all related MCP servers

                      ID: gtesv55aot