MCP Video & Audio Text Extraction Server

by SealinGp

Integrations

  • Supports downloading videos and extracting audio content for transcription using Whisper

  • Enables downloading videos and extracting audio content for transcription using Whisper

  • Supports downloading videos and extracting audio content for transcription using Whisper

Servidor de extracción de texto de audio y video MCP

Un servidor MCP que ofrece funciones de extracción de texto de diversas plataformas de vídeo y archivos de audio. Este servidor implementa el Protocolo de Contexto de Modelo (MCP) para proporcionar acceso estandarizado a servicios de transcripción de audio.

Plataformas compatibles

Este servicio admite la descarga de vídeos y la extracción de audio de varias plataformas, incluidas, entre otras:

  • YouTube
  • Bilibili
  • TikTok
  • Instagram
  • Twitter/X
  • Facebook
  • Vimeo
  • Dailymotion
  • SoundCloud

Para obtener una lista completa de las plataformas compatibles, visita los sitios compatibles con yt-dlp .

Tecnología central

Este proyecto utiliza el modelo Whisper de OpenAI para el procesamiento de audio a texto mediante herramientas MCP. El servidor expone cuatro herramientas principales:

  1. Descarga de videos: Descarga videos de plataformas compatibles
  2. Descarga de audio: extrae audio de videos en plataformas compatibles
  3. Extracción de texto de videos: Extraer texto de videos (descargar y transcribir)
  4. Extracción de texto de archivos de audio: Extraer texto de archivos de audio

Integración MCP

Este servidor está construido utilizando el Protocolo de Contexto de Modelo, que proporciona:

  • Forma estandarizada de exponer herramientas a los LLM
  • Acceso seguro a contenidos de vídeo y archivos de audio
  • Integración con clientes MCP como Claude Desktop

Características

  • Reconocimiento de voz de alta calidad basado en Whisper
  • Reconocimiento de texto en varios idiomas
  • Soporte para varios formatos de audio (mp3, wav, m4a, etc.)
  • Interfaz de herramientas compatible con MCP
  • Procesamiento asincrónico para archivos grandes

Pila tecnológica

  • Python 3.10+
  • SDK de Python del Protocolo de Contexto de Modelo (MCP)
  • yt-dlp (descarga de vídeo de YouTube)
  • openai-whisper (motor principal de conversión de audio a texto)
  • pidantico

Requisitos del sistema

  • FFmpeg (Necesario para el procesamiento de audio)
  • Mínimo 8 GB de RAM
  • Aceleración de GPU recomendada (NVIDIA GPU + CUDA)
  • Suficiente espacio en disco (para descargar el modelo y archivos temporales)

Aviso importante sobre la primera ejecución

Importante: En la primera ejecución, el sistema descargará automáticamente el archivo del modelo de Whisper (aproximadamente 1 GB). Este proceso puede tardar entre varios minutos y decenas de minutos, dependiendo de las condiciones de la red. El archivo del modelo se almacenará en caché local y no será necesario volver a descargarlo para ejecuciones posteriores.

Instalación

Uso de uv (recomendado)

Al usar uv, no se requiere una instalación específica. Usaremos uvx para ejecutar directamente el servidor de extracción de vídeo:

curl -LsSf https://astral.sh/uv/install.sh | sh

Instalar FFmpeg

FFmpeg es necesario para el procesamiento de audio. Puedes instalarlo mediante varios métodos:

# Ubuntu or Debian sudo apt update && sudo apt install ffmpeg # Arch Linux sudo pacman -S ffmpeg # MacOS brew install ffmpeg # Windows (using Chocolatey) choco install ffmpeg # Windows (using Scoop) scoop install ffmpeg

Uso

Configurar para Claude/Cursor

Añade a tu configuración de Claude/Cursor:

"mcpServers": { "video-extraction": { "command": "uvx", "args": ["mcp-video-extraction"] } }

Herramientas MCP disponibles

  1. Descarga de videos: Descarga videos de plataformas compatibles
  2. Descarga de audio: extrae audio de videos en plataformas compatibles
  3. Extracción de texto de videos: Extraer texto de videos (descargar y transcribir)
  4. Extracción de texto de archivos de audio: Extraer texto de archivos de audio

Configuración

El servicio se puede configurar a través de variables de entorno:

Configuración de susurro

  • WHISPER_MODEL : Tamaño del modelo Whisper (pequeño/base/pequeño/mediano/grande), predeterminado: 'base'
  • WHISPER_LANGUAGE : Configuración de idioma para la transcripción, predeterminado: 'auto'

Configuración de descarga de YouTube

  • YOUTUBE_FORMAT : Formato de vídeo para descargar, predeterminado: 'bestaudio'
  • AUDIO_FORMAT : Formato de audio para extracción, predeterminado: 'mp3'
  • AUDIO_QUALITY : Configuración de calidad de audio, predeterminada: '192'

Configuración de almacenamiento

  • TEMP_DIR : Ubicación de almacenamiento de archivos temporales, predeterminada: '/tmp/mcp-video'

Descargar configuración

  • DOWNLOAD_RETRIES : Número de reintentos de descarga, predeterminado: 10
  • FRAGMENT_RETRIES : Número de reintentos de descarga de fragmentos, predeterminado: 10
  • SOCKET_TIMEOUT : Tiempo de espera del socket en segundos, predeterminado: 30

Consejos para optimizar el rendimiento

  1. Aceleración de GPU:
    • Instalar CUDA y cuDNN
    • Asegúrese de que la versión GPU de PyTorch esté instalada
  2. Ajuste del tamaño del modelo:
    • diminuto: más rápido pero de menor precisión
    • base: Velocidad y precisión equilibradas
    • Grande: mayor precisión pero requiere más recursos
  3. Utilice almacenamiento SSD para archivos temporales para mejorar el rendimiento de E/S

Notas

  • El modelo Whisper (aproximadamente 1 GB) debe descargarse en la primera ejecución
  • Asegúrese de tener suficiente espacio en disco para los archivos de audio temporales
  • Se requiere una conexión de red estable para descargar videos de YouTube
  • Se recomienda GPU para un procesamiento de audio más rápido
  • El procesamiento de vídeos largos puede llevar un tiempo considerable

Guía de integración de MCP

Este servidor se puede utilizar con cualquier cliente compatible con MCP, como:

  • Escritorio de Claude
  • Clientes MCP personalizados
  • Otras aplicaciones habilitadas para MCP

Para obtener más información sobre MCP, visita Protocolo de contexto de modelo .

Documentación

Para la versión en chino de esta documentación, consulte README_zh.md

Licencia

Instituto Tecnológico de Massachusetts (MIT)

-
security - not tested
F
license - not found
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Un servidor MCP que descarga videos/extrae audio de varias plataformas como YouTube, Bilibili y TikTok, luego los transcribe a texto utilizando el modelo Whisper de OpenAI.

  1. Plataformas compatibles
    1. Tecnología central
      1. Integración MCP
    2. Características
      1. Pila tecnológica
        1. Requisitos del sistema
          1. Aviso importante sobre la primera ejecución
            1. Instalación
              1. Uso de uv (recomendado)
              2. Instalar FFmpeg
            2. Uso
              1. Configurar para Claude/Cursor
              2. Herramientas MCP disponibles
            3. Configuración
              1. Configuración de susurro
              2. Configuración de descarga de YouTube
              3. Configuración de almacenamiento
              4. Descargar configuración
            4. Consejos para optimizar el rendimiento
              1. Notas
                1. Guía de integración de MCP
                  1. Documentación
                    1. Licencia

                      Related MCP Servers

                      • -
                        security
                        A
                        license
                        -
                        quality
                        Enables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.
                        Last updated -
                        4
                        Python
                        MIT License
                      • A
                        security
                        A
                        license
                        A
                        quality
                        A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
                        Last updated -
                        1
                        2
                        JavaScript
                        MIT License
                        • Linux
                        • Apple
                      • -
                        security
                        F
                        license
                        -
                        quality
                        Simple MCP server that returns the transcription of a Youtube video using url and desired language.
                        Last updated -
                        Python
                      • -
                        security
                        -
                        license
                        -
                        quality
                        An MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.
                        Last updated -
                        1
                        JavaScript
                        MIT License

                      View all related MCP servers

                      ID: gtesv55aot