Skip to main content
Glama
SealinGp

MCP Video & Audio Text Extraction Server

by SealinGp

MCP ビデオ & オーディオ テキスト抽出サーバー

様々な動画プラットフォームや音声ファイルからテキスト抽出機能を提供するMCPサーバー。このサーバーは、モデルコンテキストプロトコル(MCP)を実装し、音声文字変換サービスへの標準化されたアクセスを提供します。

サポートされているプラットフォーム

このサービスは、以下を含むさまざまなプラットフォームからのビデオのダウンロードとオーディオの抽出をサポートしています:

  • ユーチューブ

  • ビリビリ

  • ティックトック

  • インスタグラム

  • ツイッター/X

  • フェイスブック

  • ヴィメオ

  • デイリーモーション

  • サウンドクラウド

サポートされているプラットフォームの完全なリストについては、 yt-dlp がサポートされているサイトをご覧ください。

Related MCP server: mcp-ytTranscript

コアテクノロジー

このプロジェクトでは、OpenAIのWhisperモデルを活用し、MCPツールを介して音声テキスト処理を行います。サーバーは4つの主要なツールを公開しています。

  1. ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします

  2. オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します

  3. ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)

  4. 音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します

MCP統合

このサーバーは、次の機能を提供するモデル コンテキスト プロトコルを使用して構築されています。

  • LLMにツールを公開するための標準化された方法

  • ビデオコンテンツとオーディオファイルへの安全なアクセス

  • Claude DesktopなどのMCPクライアントとの統合

特徴

  • Whisperに基づく高品質の音声認識

  • 多言語テキスト認識

  • さまざまなオーディオ形式(mp3、wav、m4a など)をサポート

  • MCP準拠ツールインターフェース

  • 大きなファイルの非同期処理

技術スタック

  • Python 3.10以上

  • モデルコンテキストプロトコル (MCP) Python SDK

  • yt-dlp(YouTube動画のダウンロード)

  • openai-whisper(コア音声テキスト変換エンジン)

  • ピダンティック

システム要件

  • FFmpeg(オーディオ処理に必要)

  • 最低8GBのRAM

  • 推奨される GPU アクセラレーション (NVIDIA GPU + CUDA)

  • 十分なディスク容量(モデルのダウンロードと一時ファイル用)

初回実行に関する重要なお知らせ

**重要:**初回実行時に、システムはWhisperモデルファイル(約1GB)を自動的にダウンロードします。このプロセスは、ネットワークの状況に応じて数分から数十分かかる場合があります。モデルファイルはローカルにキャッシュされるため、次回の実行時に再度ダウンロードする必要はありません。

インストール

uvの使用(推奨)

uvを使用する場合、特別なインストールは必要ありません。uvxを使用してビデオ抽出サーバーを直接実行します。

curl -LsSf https://astral.sh/uv/install.sh | sh

FFmpegをインストールする

オーディオ処理にはFFmpegが必要です。以下の方法でインストールできます。

# Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg

# Arch Linux
sudo pacman -S ffmpeg

# MacOS
brew install ffmpeg

# Windows (using Chocolatey)
choco install ffmpeg

# Windows (using Scoop)
scoop install ffmpeg

使用法

クロード/カーソルの設定

Claude/Cursor 設定に追加:

"mcpServers": {
  "video-extraction": {
    "command": "uvx",
    "args": ["mcp-video-extraction"]
  }
}

利用可能なMCPツール

  1. ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします

  2. オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します

  3. ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)

  4. 音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します

構成

サービスは環境変数を通じて設定できます:

ウィスパー構成

  • WHISPER_MODEL : ウィスパーモデルのサイズ(tiny/base/small/medium/large)、デフォルト: 'base'

  • WHISPER_LANGUAGE : 転写の言語設定、デフォルト: 'auto'

YouTubeダウンロード設定

  • YOUTUBE_FORMAT : ダウンロードするビデオ形式、デフォルト: 'bestaudio'

  • AUDIO_FORMAT : 抽出するオーディオ形式、デフォルト: 'mp3'

  • AUDIO_QUALITY : オーディオ品質設定、デフォルト: '192'

ストレージ構成

  • TEMP_DIR : 一時ファイルの保存場所、デフォルト: '/tmp/mcp-video'

ダウンロード設定

  • DOWNLOAD_RETRIES : ダウンロードの再試行回数、デフォルト: 10

  • FRAGMENT_RETRIES : フラグメントダウンロードの再試行回数、デフォルト: 10

  • SOCKET_TIMEOUT : ソケットのタイムアウト(秒)、デフォルト: 30

パフォーマンス最適化のヒント

  1. GPUアクセラレーション:

    • CUDAとcuDNNをインストールする

    • PyTorchのGPUバージョンがインストールされていることを確認する

  2. モデルサイズ調整:

    • tiny: 最も速いが精度は低い

    • ベース:バランスの取れた速度と精度

    • 大きい: 最高の精度だが、より多くのリソースが必要

  3. I/O パフォーマンスを向上させるために一時ファイルに SSD ストレージを使用する

注記

  • 初回実行時にWhisperモデル(約1GB)をダウンロードする必要があります

  • 一時的なオーディオファイル用の十分なディスク容量を確保する

  • YouTube動画のダウンロードには安定したネットワーク接続が必要です

  • より高速なオーディオ処理にはGPUを推奨

  • 長い動画の処理にはかなり時間がかかる場合があります

MCP統合ガイド

このサーバーは、次のような MCP 互換クライアントで使用できます。

  • クロードデスクトップ

  • カスタムMCPクライアント

  • その他のMCP対応アプリケーション

MCP の詳細については、モデル コンテキスト プロトコルを参照してください。

ドキュメント

このドキュメントの中国語版については、 README_zh.mdを参照してください。

ライセンス

マサチューセッツ工科大学

Install Server
A
security – no known vulnerabilities
F
license - not found
A
quality - confirmed to work

Resources

Looking for Admin?

Admins can modify the Dockerfile, update the server description, and track usage metrics. If you are the server author, to access the admin panel.

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/SealinGp/mcp-video-extraction'

If you have feedback or need assistance with the MCP directory API, please join our Discord server