MCP 视频和音频文本提取服务器
一个 MCP 服务器,提供从各种视频平台和音频文件提取文本的功能。该服务器实现了模型上下文协议 (MCP),以提供对音频转录服务的标准化访问。
支持的平台
本服务支持从各个平台下载视频和提取音频,包括但不限于:
YouTube
哔哩哔哩
抖音
Instagram
Twitter/X
Facebook
Vimeo
Dailymotion
SoundCloud
如需查看受支持平台的完整列表,请访问yt-dlp 支持的网站。
核心技术
该项目利用 OpenAI 的 Whisper 模型,通过 MCP 工具进行音频转文本处理。服务器主要提供以下四个工具:
视频下载:从支持的平台下载视频
音频下载:从受支持平台上的视频中提取音频
视频文本提取:从视频中提取文本(下载并转录)
音频文件文本提取:从音频文件中提取文本
MCP 集成
该服务器使用模型上下文协议构建,该协议提供:
向 LLM 公开工具的标准化方法
安全访问视频内容和音频文件
与 Claude Desktop 等 MCP 客户端集成
特征
基于 Whisper 的高质量语音识别
多语言文本识别
支持各种音频格式(mp3、wav、m4a等)
MCP 兼容工具接口
大文件的异步处理
技术栈
Python 3.10+
模型上下文协议 (MCP) Python SDK
yt-dlp(YouTube 视频下载)
openai-whisper(核心音频转文本引擎)
派丹蒂克
系统要求
FFmpeg(音频处理所需)
最低 8GB RAM
推荐使用GPU加速(NVIDIA GPU + CUDA)
足够的磁盘空间(用于模型下载和临时文件)
首次运行重要通知
**重要提示:**首次运行时,系统将自动下载 Whisper 模型文件(约 1GB)。此过程可能需要几分钟到几十分钟,具体取决于您的网络状况。模型文件将缓存在本地,后续运行时无需再次下载。
安装
使用 uv(推荐)
使用 uv 时无需特殊安装。我们将使用 uvx 直接运行视频提取服务器:
安装 FFmpeg
音频处理需要 FFmpeg。您可以通过多种方式安装它:
用法
为 Claude/Cursor 配置
添加到您的 Claude/Cursor 设置:
可用的 MCP 工具
视频下载:从支持的平台下载视频
音频下载:从受支持平台上的视频中提取音频
视频文本提取:从视频中提取文本(下载并转录)
音频文件文本提取:从音频文件中提取文本
配置
该服务可以通过环境变量进行配置:
耳语配置
WHISPER_MODEL
:Whisper 模型大小(小/基础/小/中/大),默认值:'基础'WHISPER_LANGUAGE
:转录的语言设置,默认值:'自动'
YouTube 下载配置
YOUTUBE_FORMAT
:下载的视频格式,默认值:'bestaudio'AUDIO_FORMAT
:提取的音频格式,默认值:'mp3'AUDIO_QUALITY
:音频质量设置,默认值:'192'
存储配置
TEMP_DIR
:临时文件存储位置,默认值:'/tmp/mcp-video'
下载设置
DOWNLOAD_RETRIES
:下载重试次数,默认值:10FRAGMENT_RETRIES
:片段下载重试次数,默认值:10SOCKET_TIMEOUT
:套接字超时(秒),默认值:30
性能优化技巧
GPU加速:
安装 CUDA 和 cuDNN
确保安装了 PyTorch 的 GPU 版本
模型尺寸调整:
tiny:速度最快但准确率较低
基础:平衡速度和准确性
大:准确率最高,但需要更多资源
使用 SSD 存储临时文件以提高 I/O 性能
笔记
首次运行时需要下载 Whisper 模型(约 1GB)
确保有足够的磁盘空间用于临时音频文件
YouTube 视频下载需要稳定的网络连接
建议使用 GPU 来实现更快的音频处理
处理长视频可能需要相当长的时间
MCP 集成指南
该服务器可与任何兼容 MCP 的客户端一起使用,例如:
克劳德桌面
自定义 MCP 客户端
其他支持 MCP 的应用程序
有关 MCP 的更多信息,请访问模型上下文协议。
文档
本文档的中文版本请参考README_zh.md
执照
麻省理工学院
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
MCP 服务器从 YouTube、Bilibili 和 TikTok 等各种平台下载视频/提取音频,然后使用 OpenAI 的 Whisper 模型将其转录为文本。
Related MCP Servers
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -107MIT License
- -securityFlicense-qualitySimple MCP server that returns the transcription of a Youtube video using url and desired language.Last updated -
- -securityFlicense-qualityAn MCP server that generates structured notes from Bilibili videos by automatically downloading audio, transcribing with Whisper, and processing through LLM.Last updated -6
- -securityFlicense-qualityA powerful speech-to-text MCP server that supports multiple audio formats and recognition engines including remote APIs (Bailian, OpenAI Whisper, iFLYTEK), Google Speech Recognition, and CMU Sphinx.Last updated -