MCP Video & Audio Text Extraction Server

by SealinGp

Integrations

  • Supports downloading videos and extracting audio content for transcription using Whisper

  • Enables downloading videos and extracting audio content for transcription using Whisper

  • Supports downloading videos and extracting audio content for transcription using Whisper

MCP 视频和音频文本提取服务器

一个 MCP 服务器,提供从各种视频平台和音频文件提取文本的功能。该服务器实现了模型上下文协议 (MCP),以提供对音频转录服务的标准化访问。

支持的平台

本服务支持从各个平台下载视频和提取音频,包括但不限于:

  • YouTube
  • 哔哩哔哩
  • 抖音
  • Instagram
  • Twitter/X
  • Facebook
  • Vimeo
  • Dailymotion
  • SoundCloud

如需查看受支持平台的完整列表,请访问yt-dlp 支持的网站

核心技术

该项目利用 OpenAI 的 Whisper 模型,通过 MCP 工具进行音频转文本处理。服务器主要提供以下四个工具:

  1. 视频下载:从支持的平台下载视频
  2. 音频下载:从受支持平台上的视频中提取音频
  3. 视频文本提取:从视频中提取文本(下载并转录)
  4. 音频文件文本提取:从音频文件中提取文本

MCP 集成

该服务器使用模型上下文协议构建,该协议提供:

  • 向 LLM 公开工具的标准化方法
  • 安全访问视频内容和音频文件
  • 与 Claude Desktop 等 MCP 客户端集成

特征

  • 基于 Whisper 的高质量语音识别
  • 多语言文本识别
  • 支持各种音频格式(mp3、wav、m4a等)
  • MCP 兼容工具接口
  • 大文件的异步处理

技术栈

  • Python 3.10+
  • 模型上下文协议 (MCP) Python SDK
  • yt-dlp(YouTube 视频下载)
  • openai-whisper(核心音频转文本引擎)
  • 派丹蒂克

系统要求

  • FFmpeg(音频处理所需)
  • 最低 8GB RAM
  • 推荐使用GPU加速(NVIDIA GPU + CUDA)
  • 足够的磁盘空间(用于模型下载和临时文件)

首次运行重要通知

**重要提示:**首次运行时,系统将自动下载 Whisper 模型文件(约 1GB)。此过程可能需要几分钟到几十分钟,具体取决于您的网络状况。模型文件将缓存在本地,后续运行时无需再次下载。

安装

使用 uv(推荐)

使用 uv 时无需特殊安装。我们将使用 uvx 直接运行视频提取服务器:

curl -LsSf https://astral.sh/uv/install.sh | sh

安装 FFmpeg

音频处理需要 FFmpeg。您可以通过多种方式安装它:

# Ubuntu or Debian sudo apt update && sudo apt install ffmpeg # Arch Linux sudo pacman -S ffmpeg # MacOS brew install ffmpeg # Windows (using Chocolatey) choco install ffmpeg # Windows (using Scoop) scoop install ffmpeg

用法

为 Claude/Cursor 配置

添加到您的 Claude/Cursor 设置:

"mcpServers": { "video-extraction": { "command": "uvx", "args": ["mcp-video-extraction"] } }

可用的 MCP 工具

  1. 视频下载:从支持的平台下载视频
  2. 音频下载:从受支持平台上的视频中提取音频
  3. 视频文本提取:从视频中提取文本(下载并转录)
  4. 音频文件文本提取:从音频文件中提取文本

配置

该服务可以通过环境变量进行配置:

耳语配置

  • WHISPER_MODEL :Whisper 模型大小(小/基础/小/中/大),默认值:'基础'
  • WHISPER_LANGUAGE :转录的语言设置,默认值:'自动'

YouTube 下载配置

  • YOUTUBE_FORMAT :下载的视频格式,默认值:'bestaudio'
  • AUDIO_FORMAT :提取的音频格式,默认值:'mp3'
  • AUDIO_QUALITY :音频质量设置,默认值:'192'

存储配置

  • TEMP_DIR :临时文件存储位置,默认值:'/tmp/mcp-video'

下载设置

  • DOWNLOAD_RETRIES :下载重试次数,默认值:10
  • FRAGMENT_RETRIES :片段下载重试次数,默认值:10
  • SOCKET_TIMEOUT :套接字超时(秒),默认值:30

性能优化技巧

  1. GPU加速:
    • 安装 CUDA 和 cuDNN
    • 确保安装了 PyTorch 的 GPU 版本
  2. 模型尺寸调整:
    • tiny:速度最快但准确率较低
    • 基础:平衡速度和准确性
    • 大:准确率最高,但需要更多资源
  3. 使用 SSD 存储临时文件以提高 I/O 性能

笔记

  • 首次运行时需要下载 Whisper 模型(约 1GB)
  • 确保有足够的磁盘空间用于临时音频文件
  • YouTube 视频下载需要稳定的网络连接
  • 建议使用 GPU 来实现更快的音频处理
  • 处理长视频可能需要相当长的时间

MCP 集成指南

该服务器可与任何兼容 MCP 的客户端一起使用,例如:

  • 克劳德桌面
  • 自定义 MCP 客户端
  • 其他支持 MCP 的应用程序

有关 MCP 的更多信息,请访问模型上下文协议

文档

本文档的中文版本请参考README_zh.md

执照

麻省理工学院

-
security - not tested
F
license - not found
-
quality - not tested

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

MCP 服务器从 YouTube、Bilibili 和 TikTok 等各种平台下载视频/提取音频,然后使用 OpenAI 的 Whisper 模型将其转录为文本。

  1. 支持的平台
    1. 核心技术
      1. MCP 集成
    2. 特征
      1. 技术栈
        1. 系统要求
          1. 首次运行重要通知
            1. 安装
              1. 使用 uv(推荐)
              2. 安装 FFmpeg
            2. 用法
              1. 为 Claude/Cursor 配置
              2. 可用的 MCP 工具
            3. 配置
              1. 耳语配置
              2. YouTube 下载配置
              3. 存储配置
              4. 下载设置
            4. 性能优化技巧
              1. 笔记
                1. MCP 集成指南
                  1. 文档
                    1. 执照

                      Related MCP Servers

                      • -
                        security
                        A
                        license
                        -
                        quality
                        Enables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.
                        Last updated -
                        4
                        Python
                        MIT License
                      • A
                        security
                        A
                        license
                        A
                        quality
                        A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
                        Last updated -
                        1
                        2
                        JavaScript
                        MIT License
                        • Linux
                        • Apple
                      • -
                        security
                        F
                        license
                        -
                        quality
                        Simple MCP server that returns the transcription of a Youtube video using url and desired language.
                        Last updated -
                        Python
                      • -
                        security
                        -
                        license
                        -
                        quality
                        An MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.
                        Last updated -
                        1
                        JavaScript
                        MIT License

                      View all related MCP servers

                      ID: gtesv55aot