Skip to main content
Glama
SealinGp

MCP Video & Audio Text Extraction Server

by SealinGp

MCP ビデオ & オーディオ テキスト抽出サーバー

様々な動画プラットフォームや音声ファイルからテキスト抽出機能を提供するMCPサーバー。このサーバーは、モデルコンテキストプロトコル(MCP)を実装し、音声文字変換サービスへの標準化されたアクセスを提供します。

サポートされているプラットフォーム

このサービスは、以下を含むさまざまなプラットフォームからのビデオのダウンロードとオーディオの抽出をサポートしています:

  • ユーチューブ

  • ビリビリ

  • ティックトック

  • インスタグラム

  • ツイッター/X

  • フェイスブック

  • ヴィメオ

  • デイリーモーション

  • サウンドクラウド

サポートされているプラットフォームの完全なリストについては、 yt-dlp がサポートされているサイトをご覧ください。

Related MCP server: mcp-ytTranscript

コアテクノロジー

このプロジェクトでは、OpenAIのWhisperモデルを活用し、MCPツールを介して音声テキスト処理を行います。サーバーは4つの主要なツールを公開しています。

  1. ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします

  2. オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します

  3. ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)

  4. 音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します

MCP統合

このサーバーは、次の機能を提供するモデル コンテキスト プロトコルを使用して構築されています。

  • LLMにツールを公開するための標準化された方法

  • ビデオコンテンツとオーディオファイルへの安全なアクセス

  • Claude DesktopなどのMCPクライアントとの統合

特徴

  • Whisperに基づく高品質の音声認識

  • 多言語テキスト認識

  • さまざまなオーディオ形式(mp3、wav、m4a など)をサポート

  • MCP準拠ツールインターフェース

  • 大きなファイルの非同期処理

技術スタック

  • Python 3.10以上

  • モデルコンテキストプロトコル (MCP) Python SDK

  • yt-dlp(YouTube動画のダウンロード)

  • openai-whisper(コア音声テキスト変換エンジン)

  • ピダンティック

システム要件

  • FFmpeg(オーディオ処理に必要)

  • 最低8GBのRAM

  • 推奨される GPU アクセラレーション (NVIDIA GPU + CUDA)

  • 十分なディスク容量(モデルのダウンロードと一時ファイル用)

初回実行に関する重要なお知らせ

**重要:**初回実行時に、システムはWhisperモデルファイル(約1GB)を自動的にダウンロードします。このプロセスは、ネットワークの状況に応じて数分から数十分かかる場合があります。モデルファイルはローカルにキャッシュされるため、次回の実行時に再度ダウンロードする必要はありません。

インストール

uvの使用(推奨)

uvを使用する場合、特別なインストールは必要ありません。uvxを使用してビデオ抽出サーバーを直接実行します。

curl -LsSf https://astral.sh/uv/install.sh | sh

FFmpegをインストールする

オーディオ処理にはFFmpegが必要です。以下の方法でインストールできます。

# Ubuntu or Debian sudo apt update && sudo apt install ffmpeg # Arch Linux sudo pacman -S ffmpeg # MacOS brew install ffmpeg # Windows (using Chocolatey) choco install ffmpeg # Windows (using Scoop) scoop install ffmpeg

使用法

クロード/カーソルの設定

Claude/Cursor 設定に追加:

"mcpServers": { "video-extraction": { "command": "uvx", "args": ["mcp-video-extraction"] } }

利用可能なMCPツール

  1. ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします

  2. オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します

  3. ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)

  4. 音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します

構成

サービスは環境変数を通じて設定できます:

ウィスパー構成

  • WHISPER_MODEL : ウィスパーモデルのサイズ(tiny/base/small/medium/large)、デフォルト: 'base'

  • WHISPER_LANGUAGE : 転写の言語設定、デフォルト: 'auto'

YouTubeダウンロード設定

  • YOUTUBE_FORMAT : ダウンロードするビデオ形式、デフォルト: 'bestaudio'

  • AUDIO_FORMAT : 抽出するオーディオ形式、デフォルト: 'mp3'

  • AUDIO_QUALITY : オーディオ品質設定、デフォルト: '192'

ストレージ構成

  • TEMP_DIR : 一時ファイルの保存場所、デフォルト: '/tmp/mcp-video'

ダウンロード設定

  • DOWNLOAD_RETRIES : ダウンロードの再試行回数、デフォルト: 10

  • FRAGMENT_RETRIES : フラグメントダウンロードの再試行回数、デフォルト: 10

  • SOCKET_TIMEOUT : ソケットのタイムアウト(秒)、デフォルト: 30

パフォーマンス最適化のヒント

  1. GPUアクセラレーション:

    • CUDAとcuDNNをインストールする

    • PyTorchのGPUバージョンがインストールされていることを確認する

  2. モデルサイズ調整:

    • tiny: 最も速いが精度は低い

    • ベース:バランスの取れた速度と精度

    • 大きい: 最高の精度だが、より多くのリソースが必要

  3. I/O パフォーマンスを向上させるために一時ファイルに SSD ストレージを使用する

注記

  • 初回実行時にWhisperモデル(約1GB)をダウンロードする必要があります

  • 一時的なオーディオファイル用の十分なディスク容量を確保する

  • YouTube動画のダウンロードには安定したネットワーク接続が必要です

  • より高速なオーディオ処理にはGPUを推奨

  • 長い動画の処理にはかなり時間がかかる場合があります

MCP統合ガイド

このサーバーは、次のような MCP 互換クライアントで使用できます。

  • クロードデスクトップ

  • カスタムMCPクライアント

  • その他のMCP対応アプリケーション

MCP の詳細については、モデル コンテキスト プロトコルを参照してください。

ドキュメント

このドキュメントの中国語版については、 README_zh.mdを参照してください。

ライセンス

マサチューセッツ工科大学

-
security - not tested
F
license - not found
-
quality - not tested

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/SealinGp/mcp-video-extraction'

If you have feedback or need assistance with the MCP directory API, please join our Discord server