MCP ビデオ & オーディオテキスト抽出サーバー

様々な動画プラットフォームや音声ファイルからテキスト抽出機能を提供するMCPサーバー。このサーバーは、モデルコンテキストプロトコル（MCP）を実装し、音声文字変換サービスへの標準化されたアクセスを提供します。

サポートされているプラットフォーム

このサービスは、以下を含むさまざまなプラットフォームからのビデオのダウンロードとオーディオの抽出をサポートしています:

ユーチューブ
ビリビリ
ティックトック
インスタグラム
ツイッター/X
フェイスブック
ヴィメオ
デイリーモーション
サウンドクラウド

サポートされているプラットフォームの完全なリストについては、 yt-dlp がサポートされているサイトをご覧ください。

Related MCP server: mcp-ytTranscript

コアテクノロジー

このプロジェクトでは、OpenAIのWhisperモデルを活用し、MCPツールを介して音声テキスト処理を行います。サーバーは4つの主要なツールを公開しています。

ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします
オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します
ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)
音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します

MCP統合

このサーバーは、次の機能を提供するモデルコンテキストプロトコルを使用して構築されています。

LLMにツールを公開するための標準化された方法
ビデオコンテンツとオーディオファイルへの安全なアクセス
Claude DesktopなどのMCPクライアントとの統合

特徴

Whisperに基づく高品質の音声認識
多言語テキスト認識
さまざまなオーディオ形式（mp3、wav、m4a など）をサポート
MCP準拠ツールインターフェース
大きなファイルの非同期処理

技術スタック

Python 3.10以上
モデルコンテキストプロトコル (MCP) Python SDK
yt-dlp（YouTube動画のダウンロード）
openai-whisper（コア音声テキスト変換エンジン）
ピダンティック

システム要件

FFmpeg（オーディオ処理に必要）
最低8GBのRAM
推奨される GPU アクセラレーション (NVIDIA GPU + CUDA)
十分なディスク容量（モデルのダウンロードと一時ファイル用）

初回実行に関する重要なお知らせ

**重要：**初回実行時に、システムはWhisperモデルファイル（約1GB）を自動的にダウンロードします。このプロセスは、ネットワークの状況に応じて数分から数十分かかる場合があります。モデルファイルはローカルにキャッシュされるため、次回の実行時に再度ダウンロードする必要はありません。

インストール

uvの使用（推奨）

uvを使用する場合、特別なインストールは必要ありません。uvxを使用してビデオ抽出サーバーを直接実行します。

curl -LsSf https://astral.sh/uv/install.sh | sh

FFmpegをインストールする

オーディオ処理にはFFmpegが必要です。以下の方法でインストールできます。

# Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg

# Arch Linux
sudo pacman -S ffmpeg

# MacOS
brew install ffmpeg

# Windows (using Chocolatey)
choco install ffmpeg

# Windows (using Scoop)
scoop install ffmpeg

使用法

クロード/カーソルの設定

Claude/Cursor 設定に追加:

"mcpServers": {
  "video-extraction": {
    "command": "uvx",
    "args": ["mcp-video-extraction"]
  }
}

利用可能なMCPツール

ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします
オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します
ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)
音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します

構成

サービスは環境変数を通じて設定できます:

ウィスパー構成

WHISPER_MODEL : ウィスパーモデルのサイズ（tiny/base/small/medium/large）、デフォルト: 'base'
WHISPER_LANGUAGE : 転写の言語設定、デフォルト: 'auto'

YouTubeダウンロード設定

YOUTUBE_FORMAT : ダウンロードするビデオ形式、デフォルト: 'bestaudio'
AUDIO_FORMAT : 抽出するオーディオ形式、デフォルト: 'mp3'
AUDIO_QUALITY : オーディオ品質設定、デフォルト: '192'

ストレージ構成

TEMP_DIR : 一時ファイルの保存場所、デフォルト: '/tmp/mcp-video'

ダウンロード設定

DOWNLOAD_RETRIES : ダウンロードの再試行回数、デフォルト: 10
FRAGMENT_RETRIES : フラグメントダウンロードの再試行回数、デフォルト: 10
SOCKET_TIMEOUT : ソケットのタイムアウト（秒）、デフォルト: 30

パフォーマンス最適化のヒント

GPUアクセラレーション:
- CUDAとcuDNNをインストールする
- PyTorchのGPUバージョンがインストールされていることを確認する
モデルサイズ調整:
- tiny: 最も速いが精度は低い
- ベース：バランスの取れた速度と精度
- 大きい: 最高の精度だが、より多くのリソースが必要
I/O パフォーマンスを向上させるために一時ファイルに SSD ストレージを使用する

注記

初回実行時にWhisperモデル（約1GB）をダウンロードする必要があります
一時的なオーディオファイル用の十分なディスク容量を確保する
YouTube動画のダウンロードには安定したネットワーク接続が必要です
より高速なオーディオ処理にはGPUを推奨
長い動画の処理にはかなり時間がかかる場合があります

MCP統合ガイド

このサーバーは、次のような MCP 互換クライアントで使用できます。

クロードデスクトップ
カスタムMCPクライアント
その他のMCP対応アプリケーション

MCP の詳細については、モデルコンテキストプロトコルを参照してください。

ドキュメント

このドキュメントの中国語版については、 README_zh.mdを参照してください。

ライセンス

マサチューセッツ工科大学

MCP Video & Audio Text Extraction Server

MCP ビデオ & オーディオテキスト抽出サーバー

サポートされているプラットフォーム

コアテクノロジー

MCP統合

特徴

技術スタック

システム要件

初回実行に関する重要なお知らせ

インストール

uvの使用（推奨）

FFmpegをインストールする

使用法

クロード/カーソルの設定

利用可能なMCPツール

構成

ウィスパー構成

YouTubeダウンロード設定

ストレージ構成

ダウンロード設定

パフォーマンス最適化のヒント

注記

MCP統合ガイド

ドキュメント

ライセンス

Resources

Looking for Admin?

Appeared in Searches

Latest Blog Posts

MCP directory API

MCP ビデオ & オーディオ テキスト抽出サーバー

サポートされているプラットフォーム

コアテクノロジー

MCP統合

特徴

技術スタック

システム要件

初回実行に関する重要なお知らせ

インストール

uvの使用（推奨）

FFmpegをインストールする

使用法

クロード/カーソルの設定

利用可能なMCPツール

構成

ウィスパー構成

YouTubeダウンロード設定

ストレージ構成

ダウンロード設定

パフォーマンス最適化のヒント

注記

MCP統合ガイド

ドキュメント

ライセンス

Resources

Looking for Admin?

Appeared in Searches

Latest Blog Posts

MCP directory API

MCP ビデオ & オーディオテキスト抽出サーバー