MCP Video & Audio Text Extraction Server

by SealinGp

Integrations

  • Supports downloading videos and extracting audio content for transcription using Whisper

  • Enables downloading videos and extracting audio content for transcription using Whisper

  • Supports downloading videos and extracting audio content for transcription using Whisper

MCP ビデオ & オーディオ テキスト抽出サーバー

様々な動画プラットフォームや音声ファイルからテキスト抽出機能を提供するMCPサーバー。このサーバーは、モデルコンテキストプロトコル(MCP)を実装し、音声文字変換サービスへの標準化されたアクセスを提供します。

サポートされているプラットフォーム

このサービスは、以下を含むさまざまなプラットフォームからのビデオのダウンロードとオーディオの抽出をサポートしています:

  • ユーチューブ
  • ビリビリ
  • ティックトック
  • インスタグラム
  • ツイッター/X
  • フェイスブック
  • ヴィメオ
  • デイリーモーション
  • サウンドクラウド

サポートされているプラットフォームの完全なリストについては、 yt-dlp がサポートされているサイトをご覧ください。

コアテクノロジー

このプロジェクトでは、OpenAIのWhisperモデルを活用し、MCPツールを介して音声テキスト処理を行います。サーバーは4つの主要なツールを公開しています。

  1. ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします
  2. オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します
  3. ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)
  4. 音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します

MCP統合

このサーバーは、次の機能を提供するモデル コンテキスト プロトコルを使用して構築されています。

  • LLMにツールを公開するための標準化された方法
  • ビデオコンテンツとオーディオファイルへの安全なアクセス
  • Claude DesktopなどのMCPクライアントとの統合

特徴

  • Whisperに基づく高品質の音声認識
  • 多言語テキスト認識
  • さまざまなオーディオ形式(mp3、wav、m4a など)をサポート
  • MCP準拠ツールインターフェース
  • 大きなファイルの非同期処理

技術スタック

  • Python 3.10以上
  • モデルコンテキストプロトコル (MCP) Python SDK
  • yt-dlp(YouTube動画のダウンロード)
  • openai-whisper(コア音声テキスト変換エンジン)
  • ピダンティック

システム要件

  • FFmpeg(オーディオ処理に必要)
  • 最低8GBのRAM
  • 推奨される GPU アクセラレーション (NVIDIA GPU + CUDA)
  • 十分なディスク容量(モデルのダウンロードと一時ファイル用)

初回実行に関する重要なお知らせ

**重要:**初回実行時に、システムはWhisperモデルファイル(約1GB)を自動的にダウンロードします。このプロセスは、ネットワークの状況に応じて数分から数十分かかる場合があります。モデルファイルはローカルにキャッシュされるため、次回の実行時に再度ダウンロードする必要はありません。

インストール

uvの使用(推奨)

uvを使用する場合、特別なインストールは必要ありません。uvxを使用してビデオ抽出サーバーを直接実行します。

curl -LsSf https://astral.sh/uv/install.sh | sh

FFmpegをインストールする

オーディオ処理にはFFmpegが必要です。以下の方法でインストールできます。

# Ubuntu or Debian sudo apt update && sudo apt install ffmpeg # Arch Linux sudo pacman -S ffmpeg # MacOS brew install ffmpeg # Windows (using Chocolatey) choco install ffmpeg # Windows (using Scoop) scoop install ffmpeg

使用法

クロード/カーソルの設定

Claude/Cursor 設定に追加:

"mcpServers": { "video-extraction": { "command": "uvx", "args": ["mcp-video-extraction"] } }

利用可能なMCPツール

  1. ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします
  2. オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します
  3. ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)
  4. 音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します

構成

サービスは環境変数を通じて設定できます:

ウィスパー構成

  • WHISPER_MODEL : ウィスパーモデルのサイズ(tiny/base/small/medium/large)、デフォルト: 'base'
  • WHISPER_LANGUAGE : 転写の言語設定、デフォルト: 'auto'

YouTubeダウンロード設定

  • YOUTUBE_FORMAT : ダウンロードするビデオ形式、デフォルト: 'bestaudio'
  • AUDIO_FORMAT : 抽出するオーディオ形式、デフォルト: 'mp3'
  • AUDIO_QUALITY : オーディオ品質設定、デフォルト: '192'

ストレージ構成

  • TEMP_DIR : 一時ファイルの保存場所、デフォルト: '/tmp/mcp-video'

ダウンロード設定

  • DOWNLOAD_RETRIES : ダウンロードの再試行回数、デフォルト: 10
  • FRAGMENT_RETRIES : フラグメントダウンロードの再試行回数、デフォルト: 10
  • SOCKET_TIMEOUT : ソケットのタイムアウト(秒)、デフォルト: 30

パフォーマンス最適化のヒント

  1. GPUアクセラレーション:
    • CUDAとcuDNNをインストールする
    • PyTorchのGPUバージョンがインストールされていることを確認する
  2. モデルサイズ調整:
    • tiny: 最も速いが精度は低い
    • ベース:バランスの取れた速度と精度
    • 大きい: 最高の精度だが、より多くのリソースが必要
  3. I/O パフォーマンスを向上させるために一時ファイルに SSD ストレージを使用する

注記

  • 初回実行時にWhisperモデル(約1GB)をダウンロードする必要があります
  • 一時的なオーディオファイル用の十分なディスク容量を確保する
  • YouTube動画のダウンロードには安定したネットワーク接続が必要です
  • より高速なオーディオ処理にはGPUを推奨
  • 長い動画の処理にはかなり時間がかかる場合があります

MCP統合ガイド

このサーバーは、次のような MCP 互換クライアントで使用できます。

  • クロードデスクトップ
  • カスタムMCPクライアント
  • その他のMCP対応アプリケーション

MCP の詳細については、モデル コンテキスト プロトコルを参照してください。

ドキュメント

このドキュメントの中国語版については、 README_zh.mdを参照してください。

ライセンス

マサチューセッツ工科大学

-
security - not tested
F
license - not found
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

YouTube、Bilibili、TikTok などのさまざまなプラットフォームからビデオをダウンロードしたり、オーディオを抽出したりして、OpenAI の Whisper モデルを使用してテキストに転記する MCP サーバー。

  1. サポートされているプラットフォーム
    1. コアテクノロジー
      1. MCP統合
    2. 特徴
      1. 技術スタック
        1. システム要件
          1. 初回実行に関する重要なお知らせ
            1. インストール
              1. uvの使用(推奨)
              2. FFmpegをインストールする
            2. 使用法
              1. クロード/カーソルの設定
              2. 利用可能なMCPツール
            3. 構成
              1. ウィスパー構成
              2. YouTubeダウンロード設定
              3. ストレージ構成
              4. ダウンロード設定
            4. パフォーマンス最適化のヒント
              1. 注記
                1. MCP統合ガイド
                  1. ドキュメント
                    1. ライセンス

                      Related MCP Servers

                      • -
                        security
                        A
                        license
                        -
                        quality
                        Enables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.
                        Last updated -
                        4
                        Python
                        MIT License
                      • A
                        security
                        A
                        license
                        A
                        quality
                        A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
                        Last updated -
                        1
                        2
                        JavaScript
                        MIT License
                        • Linux
                        • Apple
                      • -
                        security
                        F
                        license
                        -
                        quality
                        Simple MCP server that returns the transcription of a Youtube video using url and desired language.
                        Last updated -
                        Python
                      • -
                        security
                        -
                        license
                        -
                        quality
                        An MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.
                        Last updated -
                        1
                        JavaScript
                        MIT License

                      View all related MCP servers

                      ID: gtesv55aot