Skip to main content
Glama
SealinGp

MCP Video & Audio Text Extraction Server

by SealinGp

Servidor de extracción de texto de audio y video MCP

Un servidor MCP que ofrece funciones de extracción de texto de diversas plataformas de vídeo y archivos de audio. Este servidor implementa el Protocolo de Contexto de Modelo (MCP) para proporcionar acceso estandarizado a servicios de transcripción de audio.

Plataformas compatibles

Este servicio admite la descarga de vídeos y la extracción de audio de varias plataformas, incluidas, entre otras:

  • YouTube

  • Bilibili

  • TikTok

  • Instagram

  • Twitter/X

  • Facebook

  • Vimeo

  • Dailymotion

  • SoundCloud

Para obtener una lista completa de las plataformas compatibles, visita los sitios compatibles con yt-dlp .

Related MCP server: mcp-ytTranscript

Tecnología central

Este proyecto utiliza el modelo Whisper de OpenAI para el procesamiento de audio a texto mediante herramientas MCP. El servidor expone cuatro herramientas principales:

  1. Descarga de videos: Descarga videos de plataformas compatibles

  2. Descarga de audio: extrae audio de videos en plataformas compatibles

  3. Extracción de texto de videos: Extraer texto de videos (descargar y transcribir)

  4. Extracción de texto de archivos de audio: Extraer texto de archivos de audio

Integración MCP

Este servidor está construido utilizando el Protocolo de Contexto de Modelo, que proporciona:

  • Forma estandarizada de exponer herramientas a los LLM

  • Acceso seguro a contenidos de vídeo y archivos de audio

  • Integración con clientes MCP como Claude Desktop

Características

  • Reconocimiento de voz de alta calidad basado en Whisper

  • Reconocimiento de texto en varios idiomas

  • Soporte para varios formatos de audio (mp3, wav, m4a, etc.)

  • Interfaz de herramientas compatible con MCP

  • Procesamiento asincrónico para archivos grandes

Pila tecnológica

  • Python 3.10+

  • SDK de Python del Protocolo de Contexto de Modelo (MCP)

  • yt-dlp (descarga de vídeo de YouTube)

  • openai-whisper (motor principal de conversión de audio a texto)

  • pidantico

Requisitos del sistema

  • FFmpeg (Necesario para el procesamiento de audio)

  • Mínimo 8 GB de RAM

  • Aceleración de GPU recomendada (NVIDIA GPU + CUDA)

  • Suficiente espacio en disco (para descargar el modelo y archivos temporales)

Aviso importante sobre la primera ejecución

Importante: En la primera ejecución, el sistema descargará automáticamente el archivo del modelo de Whisper (aproximadamente 1 GB). Este proceso puede tardar entre varios minutos y decenas de minutos, dependiendo de las condiciones de la red. El archivo del modelo se almacenará en caché local y no será necesario volver a descargarlo para ejecuciones posteriores.

Instalación

Uso de uv (recomendado)

Al usar uv, no se requiere una instalación específica. Usaremos uvx para ejecutar directamente el servidor de extracción de vídeo:

curl -LsSf https://astral.sh/uv/install.sh | sh

Instalar FFmpeg

FFmpeg es necesario para el procesamiento de audio. Puedes instalarlo mediante varios métodos:

# Ubuntu or Debian sudo apt update && sudo apt install ffmpeg # Arch Linux sudo pacman -S ffmpeg # MacOS brew install ffmpeg # Windows (using Chocolatey) choco install ffmpeg # Windows (using Scoop) scoop install ffmpeg

Uso

Configurar para Claude/Cursor

Añade a tu configuración de Claude/Cursor:

"mcpServers": { "video-extraction": { "command": "uvx", "args": ["mcp-video-extraction"] } }

Herramientas MCP disponibles

  1. Descarga de videos: Descarga videos de plataformas compatibles

  2. Descarga de audio: extrae audio de videos en plataformas compatibles

  3. Extracción de texto de videos: Extraer texto de videos (descargar y transcribir)

  4. Extracción de texto de archivos de audio: Extraer texto de archivos de audio

Configuración

El servicio se puede configurar a través de variables de entorno:

Configuración de susurro

  • WHISPER_MODEL : Tamaño del modelo Whisper (pequeño/base/pequeño/mediano/grande), predeterminado: 'base'

  • WHISPER_LANGUAGE : Configuración de idioma para la transcripción, predeterminado: 'auto'

Configuración de descarga de YouTube

  • YOUTUBE_FORMAT : Formato de vídeo para descargar, predeterminado: 'bestaudio'

  • AUDIO_FORMAT : Formato de audio para extracción, predeterminado: 'mp3'

  • AUDIO_QUALITY : Configuración de calidad de audio, predeterminada: '192'

Configuración de almacenamiento

  • TEMP_DIR : Ubicación de almacenamiento de archivos temporales, predeterminada: '/tmp/mcp-video'

Descargar configuración

  • DOWNLOAD_RETRIES : Número de reintentos de descarga, predeterminado: 10

  • FRAGMENT_RETRIES : Número de reintentos de descarga de fragmentos, predeterminado: 10

  • SOCKET_TIMEOUT : Tiempo de espera del socket en segundos, predeterminado: 30

Consejos para optimizar el rendimiento

  1. Aceleración de GPU:

    • Instalar CUDA y cuDNN

    • Asegúrese de que la versión GPU de PyTorch esté instalada

  2. Ajuste del tamaño del modelo:

    • diminuto: más rápido pero de menor precisión

    • base: Velocidad y precisión equilibradas

    • Grande: mayor precisión pero requiere más recursos

  3. Utilice almacenamiento SSD para archivos temporales para mejorar el rendimiento de E/S

Notas

  • El modelo Whisper (aproximadamente 1 GB) debe descargarse en la primera ejecución

  • Asegúrese de tener suficiente espacio en disco para los archivos de audio temporales

  • Se requiere una conexión de red estable para descargar videos de YouTube

  • Se recomienda GPU para un procesamiento de audio más rápido

  • El procesamiento de vídeos largos puede llevar un tiempo considerable

Guía de integración de MCP

Este servidor se puede utilizar con cualquier cliente compatible con MCP, como:

  • Escritorio de Claude

  • Clientes MCP personalizados

  • Otras aplicaciones habilitadas para MCP

Para obtener más información sobre MCP, visita Protocolo de contexto de modelo .

Documentación

Para la versión en chino de esta documentación, consulte README_zh.md

Licencia

Instituto Tecnológico de Massachusetts (MIT)

-
security - not tested
F
license - not found
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/SealinGp/mcp-video-extraction'

If you have feedback or need assistance with the MCP directory API, please join our Discord server