Skip to main content
Glama
SealinGp

MCP Video & Audio Text Extraction Server

by SealinGp

MCP 视频和音频文本提取服务器

一个 MCP 服务器,提供从各种视频平台和音频文件提取文本的功能。该服务器实现了模型上下文协议 (MCP),以提供对音频转录服务的标准化访问。

支持的平台

本服务支持从各个平台下载视频和提取音频,包括但不限于:

  • YouTube

  • 哔哩哔哩

  • 抖音

  • Instagram

  • Twitter/X

  • Facebook

  • Vimeo

  • Dailymotion

  • SoundCloud

如需查看受支持平台的完整列表,请访问yt-dlp 支持的网站

Related MCP server: mcp-ytTranscript

核心技术

该项目利用 OpenAI 的 Whisper 模型,通过 MCP 工具进行音频转文本处理。服务器主要提供以下四个工具:

  1. 视频下载:从支持的平台下载视频

  2. 音频下载:从受支持平台上的视频中提取音频

  3. 视频文本提取:从视频中提取文本(下载并转录)

  4. 音频文件文本提取:从音频文件中提取文本

MCP 集成

该服务器使用模型上下文协议构建,该协议提供:

  • 向 LLM 公开工具的标准化方法

  • 安全访问视频内容和音频文件

  • 与 Claude Desktop 等 MCP 客户端集成

特征

  • 基于 Whisper 的高质量语音识别

  • 多语言文本识别

  • 支持各种音频格式(mp3、wav、m4a等)

  • MCP 兼容工具接口

  • 大文件的异步处理

技术栈

  • Python 3.10+

  • 模型上下文协议 (MCP) Python SDK

  • yt-dlp(YouTube 视频下载)

  • openai-whisper(核心音频转文本引擎)

  • 派丹蒂克

系统要求

  • FFmpeg(音频处理所需)

  • 最低 8GB RAM

  • 推荐使用GPU加速(NVIDIA GPU + CUDA)

  • 足够的磁盘空间(用于模型下载和临时文件)

首次运行重要通知

**重要提示:**首次运行时,系统将自动下载 Whisper 模型文件(约 1GB)。此过程可能需要几分钟到几十分钟,具体取决于您的网络状况。模型文件将缓存在本地,后续运行时无需再次下载。

安装

使用 uv(推荐)

使用 uv 时无需特殊安装。我们将使用 uvx 直接运行视频提取服务器:

curl -LsSf https://astral.sh/uv/install.sh | sh

安装 FFmpeg

音频处理需要 FFmpeg。您可以通过多种方式安装它:

# Ubuntu or Debian sudo apt update && sudo apt install ffmpeg # Arch Linux sudo pacman -S ffmpeg # MacOS brew install ffmpeg # Windows (using Chocolatey) choco install ffmpeg # Windows (using Scoop) scoop install ffmpeg

用法

为 Claude/Cursor 配置

添加到您的 Claude/Cursor 设置:

"mcpServers": { "video-extraction": { "command": "uvx", "args": ["mcp-video-extraction"] } }

可用的 MCP 工具

  1. 视频下载:从支持的平台下载视频

  2. 音频下载:从受支持平台上的视频中提取音频

  3. 视频文本提取:从视频中提取文本(下载并转录)

  4. 音频文件文本提取:从音频文件中提取文本

配置

该服务可以通过环境变量进行配置:

耳语配置

  • WHISPER_MODEL :Whisper 模型大小(小/基础/小/中/大),默认值:'基础'

  • WHISPER_LANGUAGE :转录的语言设置,默认值:'自动'

YouTube 下载配置

  • YOUTUBE_FORMAT :下载的视频格式,默认值:'bestaudio'

  • AUDIO_FORMAT :提取的音频格式,默认值:'mp3'

  • AUDIO_QUALITY :音频质量设置,默认值:'192'

存储配置

  • TEMP_DIR :临时文件存储位置,默认值:'/tmp/mcp-video'

下载设置

  • DOWNLOAD_RETRIES :下载重试次数,默认值:10

  • FRAGMENT_RETRIES :片段下载重试次数,默认值:10

  • SOCKET_TIMEOUT :套接字超时(秒),默认值:30

性能优化技巧

  1. GPU加速:

    • 安装 CUDA 和 cuDNN

    • 确保安装了 PyTorch 的 GPU 版本

  2. 模型尺寸调整:

    • tiny:速度最快但准确率较低

    • 基础:平衡速度和准确性

    • 大:准确率最高,但需要更多资源

  3. 使用 SSD 存储临时文件以提高 I/O 性能

笔记

  • 首次运行时需要下载 Whisper 模型(约 1GB)

  • 确保有足够的磁盘空间用于临时音频文件

  • YouTube 视频下载需要稳定的网络连接

  • 建议使用 GPU 来实现更快的音频处理

  • 处理长视频可能需要相当长的时间

MCP 集成指南

该服务器可与任何兼容 MCP 的客户端一起使用,例如:

  • 克劳德桌面

  • 自定义 MCP 客户端

  • 其他支持 MCP 的应用程序

有关 MCP 的更多信息,请访问模型上下文协议

文档

本文档的中文版本请参考README_zh.md

执照

麻省理工学院

-
security - not tested
F
license - not found
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/SealinGp/mcp-video-extraction'

If you have feedback or need assistance with the MCP directory API, please join our Discord server