Integrations
Supports downloading videos and extracting audio content for transcription using Whisper
Enables downloading videos and extracting audio content for transcription using Whisper
Supports downloading videos and extracting audio content for transcription using Whisper
Servidor de extracción de texto de audio y video MCP
Un servidor MCP que ofrece funciones de extracción de texto de diversas plataformas de vídeo y archivos de audio. Este servidor implementa el Protocolo de Contexto de Modelo (MCP) para proporcionar acceso estandarizado a servicios de transcripción de audio.
Plataformas compatibles
Este servicio admite la descarga de vídeos y la extracción de audio de varias plataformas, incluidas, entre otras:
- YouTube
- Bilibili
- TikTok
- Twitter/X
- Vimeo
- Dailymotion
- SoundCloud
Para obtener una lista completa de las plataformas compatibles, visita los sitios compatibles con yt-dlp .
Tecnología central
Este proyecto utiliza el modelo Whisper de OpenAI para el procesamiento de audio a texto mediante herramientas MCP. El servidor expone cuatro herramientas principales:
- Descarga de videos: Descarga videos de plataformas compatibles
- Descarga de audio: extrae audio de videos en plataformas compatibles
- Extracción de texto de videos: Extraer texto de videos (descargar y transcribir)
- Extracción de texto de archivos de audio: Extraer texto de archivos de audio
Integración MCP
Este servidor está construido utilizando el Protocolo de Contexto de Modelo, que proporciona:
- Forma estandarizada de exponer herramientas a los LLM
- Acceso seguro a contenidos de vídeo y archivos de audio
- Integración con clientes MCP como Claude Desktop
Características
- Reconocimiento de voz de alta calidad basado en Whisper
- Reconocimiento de texto en varios idiomas
- Soporte para varios formatos de audio (mp3, wav, m4a, etc.)
- Interfaz de herramientas compatible con MCP
- Procesamiento asincrónico para archivos grandes
Pila tecnológica
- Python 3.10+
- SDK de Python del Protocolo de Contexto de Modelo (MCP)
- yt-dlp (descarga de vídeo de YouTube)
- openai-whisper (motor principal de conversión de audio a texto)
- pidantico
Requisitos del sistema
- FFmpeg (Necesario para el procesamiento de audio)
- Mínimo 8 GB de RAM
- Aceleración de GPU recomendada (NVIDIA GPU + CUDA)
- Suficiente espacio en disco (para descargar el modelo y archivos temporales)
Aviso importante sobre la primera ejecución
Importante: En la primera ejecución, el sistema descargará automáticamente el archivo del modelo de Whisper (aproximadamente 1 GB). Este proceso puede tardar entre varios minutos y decenas de minutos, dependiendo de las condiciones de la red. El archivo del modelo se almacenará en caché local y no será necesario volver a descargarlo para ejecuciones posteriores.
Instalación
Uso de uv (recomendado)
Al usar uv, no se requiere una instalación específica. Usaremos uvx para ejecutar directamente el servidor de extracción de vídeo:
Instalar FFmpeg
FFmpeg es necesario para el procesamiento de audio. Puedes instalarlo mediante varios métodos:
Uso
Configurar para Claude/Cursor
Añade a tu configuración de Claude/Cursor:
Herramientas MCP disponibles
- Descarga de videos: Descarga videos de plataformas compatibles
- Descarga de audio: extrae audio de videos en plataformas compatibles
- Extracción de texto de videos: Extraer texto de videos (descargar y transcribir)
- Extracción de texto de archivos de audio: Extraer texto de archivos de audio
Configuración
El servicio se puede configurar a través de variables de entorno:
Configuración de susurro
WHISPER_MODEL
: Tamaño del modelo Whisper (pequeño/base/pequeño/mediano/grande), predeterminado: 'base'WHISPER_LANGUAGE
: Configuración de idioma para la transcripción, predeterminado: 'auto'
Configuración de descarga de YouTube
YOUTUBE_FORMAT
: Formato de vídeo para descargar, predeterminado: 'bestaudio'AUDIO_FORMAT
: Formato de audio para extracción, predeterminado: 'mp3'AUDIO_QUALITY
: Configuración de calidad de audio, predeterminada: '192'
Configuración de almacenamiento
TEMP_DIR
: Ubicación de almacenamiento de archivos temporales, predeterminada: '/tmp/mcp-video'
Descargar configuración
DOWNLOAD_RETRIES
: Número de reintentos de descarga, predeterminado: 10FRAGMENT_RETRIES
: Número de reintentos de descarga de fragmentos, predeterminado: 10SOCKET_TIMEOUT
: Tiempo de espera del socket en segundos, predeterminado: 30
Consejos para optimizar el rendimiento
- Aceleración de GPU:
- Instalar CUDA y cuDNN
- Asegúrese de que la versión GPU de PyTorch esté instalada
- Ajuste del tamaño del modelo:
- diminuto: más rápido pero de menor precisión
- base: Velocidad y precisión equilibradas
- Grande: mayor precisión pero requiere más recursos
- Utilice almacenamiento SSD para archivos temporales para mejorar el rendimiento de E/S
Notas
- El modelo Whisper (aproximadamente 1 GB) debe descargarse en la primera ejecución
- Asegúrese de tener suficiente espacio en disco para los archivos de audio temporales
- Se requiere una conexión de red estable para descargar videos de YouTube
- Se recomienda GPU para un procesamiento de audio más rápido
- El procesamiento de vídeos largos puede llevar un tiempo considerable
Guía de integración de MCP
Este servidor se puede utilizar con cualquier cliente compatible con MCP, como:
- Escritorio de Claude
- Clientes MCP personalizados
- Otras aplicaciones habilitadas para MCP
Para obtener más información sobre MCP, visita Protocolo de contexto de modelo .
Documentación
Para la versión en chino de esta documentación, consulte README_zh.md
Licencia
Instituto Tecnológico de Massachusetts (MIT)
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Un servidor MCP que descarga videos/extrae audio de varias plataformas como YouTube, Bilibili y TikTok, luego los transcribe a texto utilizando el modelo Whisper de OpenAI.
Related MCP Servers
- -securityAlicense-qualityEnables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.Last updated -4PythonMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- -securityFlicense-qualitySimple MCP server that returns the transcription of a Youtube video using url and desired language.Last updated -Python
- -security-license-qualityAn MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.Last updated -1JavaScriptMIT License