MCP 视频和音频文本提取服务器
一个 MCP 服务器,提供从各种视频平台和音频文件提取文本的功能。该服务器实现了模型上下文协议 (MCP),以提供对音频转录服务的标准化访问。
支持的平台
本服务支持从各个平台下载视频和提取音频,包括但不限于:
- YouTube
- 哔哩哔哩
- 抖音
- Twitter/X
- Vimeo
- Dailymotion
- SoundCloud
如需查看受支持平台的完整列表,请访问yt-dlp 支持的网站。
核心技术
该项目利用 OpenAI 的 Whisper 模型,通过 MCP 工具进行音频转文本处理。服务器主要提供以下四个工具:
- 视频下载:从支持的平台下载视频
- 音频下载:从受支持平台上的视频中提取音频
- 视频文本提取:从视频中提取文本(下载并转录)
- 音频文件文本提取:从音频文件中提取文本
MCP 集成
该服务器使用模型上下文协议构建,该协议提供:
- 向 LLM 公开工具的标准化方法
- 安全访问视频内容和音频文件
- 与 Claude Desktop 等 MCP 客户端集成
特征
- 基于 Whisper 的高质量语音识别
- 多语言文本识别
- 支持各种音频格式(mp3、wav、m4a等)
- MCP 兼容工具接口
- 大文件的异步处理
技术栈
- Python 3.10+
- 模型上下文协议 (MCP) Python SDK
- yt-dlp(YouTube 视频下载)
- openai-whisper(核心音频转文本引擎)
- 派丹蒂克
系统要求
- FFmpeg(音频处理所需)
- 最低 8GB RAM
- 推荐使用GPU加速(NVIDIA GPU + CUDA)
- 足够的磁盘空间(用于模型下载和临时文件)
首次运行重要通知
**重要提示:**首次运行时,系统将自动下载 Whisper 模型文件(约 1GB)。此过程可能需要几分钟到几十分钟,具体取决于您的网络状况。模型文件将缓存在本地,后续运行时无需再次下载。
安装
使用 uv(推荐)
使用 uv 时无需特殊安装。我们将使用 uvx 直接运行视频提取服务器:
安装 FFmpeg
音频处理需要 FFmpeg。您可以通过多种方式安装它:
用法
为 Claude/Cursor 配置
添加到您的 Claude/Cursor 设置:
可用的 MCP 工具
- 视频下载:从支持的平台下载视频
- 音频下载:从受支持平台上的视频中提取音频
- 视频文本提取:从视频中提取文本(下载并转录)
- 音频文件文本提取:从音频文件中提取文本
配置
该服务可以通过环境变量进行配置:
耳语配置
WHISPER_MODEL
:Whisper 模型大小(小/基础/小/中/大),默认值:'基础'WHISPER_LANGUAGE
:转录的语言设置,默认值:'自动'
YouTube 下载配置
YOUTUBE_FORMAT
:下载的视频格式,默认值:'bestaudio'AUDIO_FORMAT
:提取的音频格式,默认值:'mp3'AUDIO_QUALITY
:音频质量设置,默认值:'192'
存储配置
TEMP_DIR
:临时文件存储位置,默认值:'/tmp/mcp-video'
下载设置
DOWNLOAD_RETRIES
:下载重试次数,默认值:10FRAGMENT_RETRIES
:片段下载重试次数,默认值:10SOCKET_TIMEOUT
:套接字超时(秒),默认值:30
性能优化技巧
- GPU加速:
- 安装 CUDA 和 cuDNN
- 确保安装了 PyTorch 的 GPU 版本
- 模型尺寸调整:
- tiny:速度最快但准确率较低
- 基础:平衡速度和准确性
- 大:准确率最高,但需要更多资源
- 使用 SSD 存储临时文件以提高 I/O 性能
笔记
- 首次运行时需要下载 Whisper 模型(约 1GB)
- 确保有足够的磁盘空间用于临时音频文件
- YouTube 视频下载需要稳定的网络连接
- 建议使用 GPU 来实现更快的音频处理
- 处理长视频可能需要相当长的时间
MCP 集成指南
该服务器可与任何兼容 MCP 的客户端一起使用,例如:
- 克劳德桌面
- 自定义 MCP 客户端
- 其他支持 MCP 的应用程序
有关 MCP 的更多信息,请访问模型上下文协议。
文档
本文档的中文版本请参考README_zh.md
执照
麻省理工学院
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
MCP 服务器从 YouTube、Bilibili 和 TikTok 等各种平台下载视频/提取音频,然后使用 OpenAI 的 Whisper 模型将其转录为文本。
Related MCP Servers
- -securityAlicense-qualityEnables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.Last updated -4PythonMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- -securityFlicense-qualitySimple MCP server that returns the transcription of a Youtube video using url and desired language.Last updated -Python
- -securityAlicense-qualityAn MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.Last updated -41JavaScriptMIT License