Servidor de extracción de texto de audio y video MCP

Un servidor MCP que ofrece funciones de extracción de texto de diversas plataformas de vídeo y archivos de audio. Este servidor implementa el Protocolo de Contexto de Modelo (MCP) para proporcionar acceso estandarizado a servicios de transcripción de audio.

Plataformas compatibles

Este servicio admite la descarga de vídeos y la extracción de audio de varias plataformas, incluidas, entre otras:

YouTube
Bilibili
TikTok
Instagram
Twitter/X
Facebook
Vimeo
Dailymotion
SoundCloud

Para obtener una lista completa de las plataformas compatibles, visita los sitios compatibles con yt-dlp .

Tecnología central

Este proyecto utiliza el modelo Whisper de OpenAI para el procesamiento de audio a texto mediante herramientas MCP. El servidor expone cuatro herramientas principales:

Descarga de videos: Descarga videos de plataformas compatibles
Descarga de audio: extrae audio de videos en plataformas compatibles
Extracción de texto de videos: Extraer texto de videos (descargar y transcribir)
Extracción de texto de archivos de audio: Extraer texto de archivos de audio

Integración MCP

Este servidor está construido utilizando el Protocolo de Contexto de Modelo, que proporciona:

Forma estandarizada de exponer herramientas a los LLM
Acceso seguro a contenidos de vídeo y archivos de audio
Integración con clientes MCP como Claude Desktop

Características

Reconocimiento de voz de alta calidad basado en Whisper
Reconocimiento de texto en varios idiomas
Soporte para varios formatos de audio (mp3, wav, m4a, etc.)
Interfaz de herramientas compatible con MCP
Procesamiento asincrónico para archivos grandes

Pila tecnológica

Python 3.10+
SDK de Python del Protocolo de Contexto de Modelo (MCP)
yt-dlp (descarga de vídeo de YouTube)
openai-whisper (motor principal de conversión de audio a texto)
pidantico

Requisitos del sistema

FFmpeg (Necesario para el procesamiento de audio)
Mínimo 8 GB de RAM
Aceleración de GPU recomendada (NVIDIA GPU + CUDA)
Suficiente espacio en disco (para descargar el modelo y archivos temporales)

Aviso importante sobre la primera ejecución

Importante: En la primera ejecución, el sistema descargará automáticamente el archivo del modelo de Whisper (aproximadamente 1 GB). Este proceso puede tardar entre varios minutos y decenas de minutos, dependiendo de las condiciones de la red. El archivo del modelo se almacenará en caché local y no será necesario volver a descargarlo para ejecuciones posteriores.

Instalación

Uso de uv (recomendado)

Al usar uv, no se requiere una instalación específica. Usaremos uvx para ejecutar directamente el servidor de extracción de vídeo:

curl -LsSf https://astral.sh/uv/install.sh | sh

Instalar FFmpeg

FFmpeg es necesario para el procesamiento de audio. Puedes instalarlo mediante varios métodos:

# Ubuntu or Debian sudo apt update && sudo apt install ffmpeg # Arch Linux sudo pacman -S ffmpeg # MacOS brew install ffmpeg # Windows (using Chocolatey) choco install ffmpeg # Windows (using Scoop) scoop install ffmpeg

Uso

Configurar para Claude/Cursor

Añade a tu configuración de Claude/Cursor:

"mcpServers": { "video-extraction": { "command": "uvx", "args": ["mcp-video-extraction"] } }

Herramientas MCP disponibles

Descarga de videos: Descarga videos de plataformas compatibles
Descarga de audio: extrae audio de videos en plataformas compatibles
Extracción de texto de videos: Extraer texto de videos (descargar y transcribir)
Extracción de texto de archivos de audio: Extraer texto de archivos de audio

Configuración

El servicio se puede configurar a través de variables de entorno:

Configuración de susurro

WHISPER_MODEL : Tamaño del modelo Whisper (pequeño/base/pequeño/mediano/grande), predeterminado: 'base'
WHISPER_LANGUAGE : Configuración de idioma para la transcripción, predeterminado: 'auto'

Configuración de descarga de YouTube

YOUTUBE_FORMAT : Formato de vídeo para descargar, predeterminado: 'bestaudio'
AUDIO_FORMAT : Formato de audio para extracción, predeterminado: 'mp3'
AUDIO_QUALITY : Configuración de calidad de audio, predeterminada: '192'

Configuración de almacenamiento

TEMP_DIR : Ubicación de almacenamiento de archivos temporales, predeterminada: '/tmp/mcp-video'

Descargar configuración

DOWNLOAD_RETRIES : Número de reintentos de descarga, predeterminado: 10
FRAGMENT_RETRIES : Número de reintentos de descarga de fragmentos, predeterminado: 10
SOCKET_TIMEOUT : Tiempo de espera del socket en segundos, predeterminado: 30

Consejos para optimizar el rendimiento

Aceleración de GPU:
- Instalar CUDA y cuDNN
- Asegúrese de que la versión GPU de PyTorch esté instalada
Ajuste del tamaño del modelo:
- diminuto: más rápido pero de menor precisión
- base: Velocidad y precisión equilibradas
- Grande: mayor precisión pero requiere más recursos
Utilice almacenamiento SSD para archivos temporales para mejorar el rendimiento de E/S

Notas

El modelo Whisper (aproximadamente 1 GB) debe descargarse en la primera ejecución
Asegúrese de tener suficiente espacio en disco para los archivos de audio temporales
Se requiere una conexión de red estable para descargar videos de YouTube
Se recomienda GPU para un procesamiento de audio más rápido
El procesamiento de vídeos largos puede llevar un tiempo considerable

Guía de integración de MCP

Este servidor se puede utilizar con cualquier cliente compatible con MCP, como:

Escritorio de Claude
Clientes MCP personalizados
Otras aplicaciones habilitadas para MCP

Para obtener más información sobre MCP, visita Protocolo de contexto de modelo .

Documentación

Para la versión en chino de esta documentación, consulte README_zh.md

Licencia

Instituto Tecnológico de Massachusetts (MIT)

This server cannot be installed

-

security - not tested

F

license - not found

-

quality - not tested

How are these scores calculated?

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

Un servidor MCP que descarga videos/extrae audio de varias plataformas como YouTube, Bilibili y TikTok, luego los transcribe a texto utilizando el modelo Whisper de OpenAI.

Related MCP Servers

Audio Transcriber MCP Server
Ichigo3766
A
security
A
license
A
quality
A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
Last updated -
1
0
7
MIT License
mcp-ytTranscript
Dan-Camargo
-
security
F
license
-
quality
Simple MCP server that returns the transcription of a Youtube video using url and desired language.
Last updated -
BiliMind-MCP
jiaohuix
-
security
F
license
-
quality
An MCP server that generates structured notes from Bilibili videos by automatically downloading audio, transcribing with Whisper, and processing through LLM.
Last updated -
6
Voice to Text MCP Server
gongjiaben
-
security
F
license
-
quality
A powerful speech-to-text MCP server that supports multiple audio formats and recognition engines including remote APIs (Bailian, OpenAI Whisper, iFLYTEK), Google Speech Recognition, and CMU Sphinx.
Last updated -

View all related MCP servers

MCP Video & Audio Text Extraction Server