MCP 视频和音频文本提取服务器

一个 MCP 服务器，提供从各种视频平台和音频文件提取文本的功能。该服务器实现了模型上下文协议 (MCP)，以提供对音频转录服务的标准化访问。

支持的平台

本服务支持从各个平台下载视频和提取音频，包括但不限于：

YouTube
哔哩哔哩
抖音
Instagram
Twitter/X
Facebook
Vimeo
Dailymotion
SoundCloud

如需查看受支持平台的完整列表，请访问yt-dlp 支持的网站。

核心技术

该项目利用 OpenAI 的 Whisper 模型，通过 MCP 工具进行音频转文本处理。服务器主要提供以下四个工具：

视频下载：从支持的平台下载视频
音频下载：从受支持平台上的视频中提取音频
视频文本提取：从视频中提取文本（下载并转录）
音频文件文本提取：从音频文件中提取文本

MCP 集成

该服务器使用模型上下文协议构建，该协议提供：

向 LLM 公开工具的标准化方法
安全访问视频内容和音频文件
与 Claude Desktop 等 MCP 客户端集成

特征

基于 Whisper 的高质量语音识别
多语言文本识别
支持各种音频格式（mp3、wav、m4a等）
MCP 兼容工具接口
大文件的异步处理

技术栈

Python 3.10+
模型上下文协议 (MCP) Python SDK
yt-dlp（YouTube 视频下载）
openai-whisper（核心音频转文本引擎）
派丹蒂克

系统要求

FFmpeg（音频处理所需）
最低 8GB RAM
推荐使用GPU加速（NVIDIA GPU + CUDA）
足够的磁盘空间（用于模型下载和临时文件）

首次运行重要通知

**重要提示：**首次运行时，系统将自动下载 Whisper 模型文件（约 1GB）。此过程可能需要几分钟到几十分钟，具体取决于您的网络状况。模型文件将缓存在本地，后续运行时无需再次下载。

安装

使用 uv（推荐）

使用 uv 时无需特殊安装。我们将使用 uvx 直接运行视频提取服务器：

curl -LsSf https://astral.sh/uv/install.sh | sh

安装 FFmpeg

音频处理需要 FFmpeg。您可以通过多种方式安装它：

# Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg

# Arch Linux
sudo pacman -S ffmpeg

# MacOS
brew install ffmpeg

# Windows (using Chocolatey)
choco install ffmpeg

# Windows (using Scoop)
scoop install ffmpeg

用法

为 Claude/Cursor 配置

添加到您的 Claude/Cursor 设置：

"mcpServers": {
  "video-extraction": {
    "command": "uvx",
    "args": ["mcp-video-extraction"]
  }
}

可用的 MCP 工具

视频下载：从支持的平台下载视频
音频下载：从受支持平台上的视频中提取音频
视频文本提取：从视频中提取文本（下载并转录）
音频文件文本提取：从音频文件中提取文本

配置

该服务可以通过环境变量进行配置：

耳语配置

WHISPER_MODEL ：Whisper 模型大小（小/基础/小/中/大），默认值：'基础'
WHISPER_LANGUAGE ：转录的语言设置，默认值：'自动'

YouTube 下载配置

YOUTUBE_FORMAT ：下载的视频格式，默认值：'bestaudio'
AUDIO_FORMAT ：提取的音频格式，默认值：'mp3'
AUDIO_QUALITY ：音频质量设置，默认值：'192'

存储配置

TEMP_DIR ：临时文件存储位置，默认值：'/tmp/mcp-video'

下载设置

DOWNLOAD_RETRIES ：下载重试次数，默认值：10
FRAGMENT_RETRIES ：片段下载重试次数，默认值：10
SOCKET_TIMEOUT ：套接字超时（秒），默认值：30

性能优化技巧

GPU加速：
- 安装 CUDA 和 cuDNN
- 确保安装了 PyTorch 的 GPU 版本
模型尺寸调整：
- tiny：速度最快但准确率较低
- 基础：平衡速度和准确性
- 大：准确率最高，但需要更多资源
使用 SSD 存储临时文件以提高 I/O 性能

笔记

首次运行时需要下载 Whisper 模型（约 1GB）
确保有足够的磁盘空间用于临时音频文件
YouTube 视频下载需要稳定的网络连接
建议使用 GPU 来实现更快的音频处理
处理长视频可能需要相当长的时间

MCP 集成指南

该服务器可与任何兼容 MCP 的客户端一起使用，例如：

克劳德桌面
自定义 MCP 客户端
其他支持 MCP 的应用程序

有关 MCP 的更多信息，请访问模型上下文协议。

文档

本文档的中文版本请参考README_zh.md

执照

麻省理工学院

This server cannot be installed

security - not tested

license - not found

quality - not tested

How are these scores calculated?

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

MCP 服务器从 YouTube、Bilibili 和 TikTok 等各种平台下载视频/提取音频，然后使用 OpenAI 的 Whisper 模型将其转录为文本。

Related MCP Servers

Audio Transcriber MCP Server
Ichigo3766
A
security
A
license
A
quality
A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
Last updated -
1
0
7
JavaScript
MIT License
mcp-ytTranscript
Dan-Camargo
-
security
F
license
-
quality
Simple MCP server that returns the transcription of a Youtube video using url and desired language.
Last updated -
Python
BiliMind-MCP
jiaohuix
-
security
F
license
-
quality
An MCP server that generates structured notes from Bilibili videos by automatically downloading audio, transcribing with Whisper, and processing through LLM.
Last updated -
5
Python
Voice to Text MCP Server
gongjiaben
-
security
F
license
-
quality
A powerful speech-to-text MCP server that supports multiple audio formats and recognition engines including remote APIs (Bailian, OpenAI Whisper, iFLYTEK), Google Speech Recognition, and CMU Sphinx.
Last updated -
Python

View all related MCP servers

MCP Video & Audio Text Extraction Server