Integrations
Supports downloading videos and extracting audio content for transcription using Whisper
Enables downloading videos and extracting audio content for transcription using Whisper
Supports downloading videos and extracting audio content for transcription using Whisper
MCP 视频和音频文本提取服务器
一个 MCP 服务器,提供从各种视频平台和音频文件提取文本的功能。该服务器实现了模型上下文协议 (MCP),以提供对音频转录服务的标准化访问。
支持的平台
本服务支持从各个平台下载视频和提取音频,包括但不限于:
- YouTube
- 哔哩哔哩
- 抖音
- Twitter/X
- Vimeo
- Dailymotion
- SoundCloud
如需查看受支持平台的完整列表,请访问yt-dlp 支持的网站。
核心技术
该项目利用 OpenAI 的 Whisper 模型,通过 MCP 工具进行音频转文本处理。服务器主要提供以下四个工具:
- 视频下载:从支持的平台下载视频
- 音频下载:从受支持平台上的视频中提取音频
- 视频文本提取:从视频中提取文本(下载并转录)
- 音频文件文本提取:从音频文件中提取文本
MCP 集成
该服务器使用模型上下文协议构建,该协议提供:
- 向 LLM 公开工具的标准化方法
- 安全访问视频内容和音频文件
- 与 Claude Desktop 等 MCP 客户端集成
特征
- 基于 Whisper 的高质量语音识别
- 多语言文本识别
- 支持各种音频格式(mp3、wav、m4a等)
- MCP 兼容工具接口
- 大文件的异步处理
技术栈
- Python 3.10+
- 模型上下文协议 (MCP) Python SDK
- yt-dlp(YouTube 视频下载)
- openai-whisper(核心音频转文本引擎)
- 派丹蒂克
系统要求
- FFmpeg(音频处理所需)
- 最低 8GB RAM
- 推荐使用GPU加速(NVIDIA GPU + CUDA)
- 足够的磁盘空间(用于模型下载和临时文件)
首次运行重要通知
**重要提示:**首次运行时,系统将自动下载 Whisper 模型文件(约 1GB)。此过程可能需要几分钟到几十分钟,具体取决于您的网络状况。模型文件将缓存在本地,后续运行时无需再次下载。
安装
使用 uv(推荐)
使用 uv 时无需特殊安装。我们将使用 uvx 直接运行视频提取服务器:
安装 FFmpeg
音频处理需要 FFmpeg。您可以通过多种方式安装它:
用法
为 Claude/Cursor 配置
添加到您的 Claude/Cursor 设置:
可用的 MCP 工具
- 视频下载:从支持的平台下载视频
- 音频下载:从受支持平台上的视频中提取音频
- 视频文本提取:从视频中提取文本(下载并转录)
- 音频文件文本提取:从音频文件中提取文本
配置
该服务可以通过环境变量进行配置:
耳语配置
WHISPER_MODEL
:Whisper 模型大小(小/基础/小/中/大),默认值:'基础'WHISPER_LANGUAGE
:转录的语言设置,默认值:'自动'
YouTube 下载配置
YOUTUBE_FORMAT
:下载的视频格式,默认值:'bestaudio'AUDIO_FORMAT
:提取的音频格式,默认值:'mp3'AUDIO_QUALITY
:音频质量设置,默认值:'192'
存储配置
TEMP_DIR
:临时文件存储位置,默认值:'/tmp/mcp-video'
下载设置
DOWNLOAD_RETRIES
:下载重试次数,默认值:10FRAGMENT_RETRIES
:片段下载重试次数,默认值:10SOCKET_TIMEOUT
:套接字超时(秒),默认值:30
性能优化技巧
- GPU加速:
- 安装 CUDA 和 cuDNN
- 确保安装了 PyTorch 的 GPU 版本
- 模型尺寸调整:
- tiny:速度最快但准确率较低
- 基础:平衡速度和准确性
- 大:准确率最高,但需要更多资源
- 使用 SSD 存储临时文件以提高 I/O 性能
笔记
- 首次运行时需要下载 Whisper 模型(约 1GB)
- 确保有足够的磁盘空间用于临时音频文件
- YouTube 视频下载需要稳定的网络连接
- 建议使用 GPU 来实现更快的音频处理
- 处理长视频可能需要相当长的时间
MCP 集成指南
该服务器可与任何兼容 MCP 的客户端一起使用,例如:
- 克劳德桌面
- 自定义 MCP 客户端
- 其他支持 MCP 的应用程序
有关 MCP 的更多信息,请访问模型上下文协议。
文档
本文档的中文版本请参考README_zh.md
执照
麻省理工学院
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
MCP 服务器从 YouTube、Bilibili 和 TikTok 等各种平台下载视频/提取音频,然后使用 OpenAI 的 Whisper 模型将其转录为文本。
Related MCP Servers
- -securityAlicense-qualityEnables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.Last updated -4PythonMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- -securityFlicense-qualitySimple MCP server that returns the transcription of a Youtube video using url and desired language.Last updated -Python
- -security-license-qualityAn MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.Last updated -1JavaScriptMIT License