MCP ビデオ & オーディオ テキスト抽出サーバー
様々な動画プラットフォームや音声ファイルからテキスト抽出機能を提供するMCPサーバー。このサーバーは、モデルコンテキストプロトコル(MCP)を実装し、音声文字変換サービスへの標準化されたアクセスを提供します。
サポートされているプラットフォーム
このサービスは、以下を含むさまざまなプラットフォームからのビデオのダウンロードとオーディオの抽出をサポートしています:
- ユーチューブ
- ビリビリ
- ティックトック
- インスタグラム
- ツイッター/X
- フェイスブック
- ヴィメオ
- デイリーモーション
- サウンドクラウド
サポートされているプラットフォームの完全なリストについては、 yt-dlp がサポートされているサイトをご覧ください。
コアテクノロジー
このプロジェクトでは、OpenAIのWhisperモデルを活用し、MCPツールを介して音声テキスト処理を行います。サーバーは4つの主要なツールを公開しています。
- ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします
- オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します
- ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)
- 音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します
MCP統合
このサーバーは、次の機能を提供するモデル コンテキスト プロトコルを使用して構築されています。
- LLMにツールを公開するための標準化された方法
- ビデオコンテンツとオーディオファイルへの安全なアクセス
- Claude DesktopなどのMCPクライアントとの統合
特徴
- Whisperに基づく高品質の音声認識
- 多言語テキスト認識
- さまざまなオーディオ形式(mp3、wav、m4a など)をサポート
- MCP準拠ツールインターフェース
- 大きなファイルの非同期処理
技術スタック
- Python 3.10以上
- モデルコンテキストプロトコル (MCP) Python SDK
- yt-dlp(YouTube動画のダウンロード)
- openai-whisper(コア音声テキスト変換エンジン)
- ピダンティック
システム要件
- FFmpeg(オーディオ処理に必要)
- 最低8GBのRAM
- 推奨される GPU アクセラレーション (NVIDIA GPU + CUDA)
- 十分なディスク容量(モデルのダウンロードと一時ファイル用)
初回実行に関する重要なお知らせ
**重要:**初回実行時に、システムはWhisperモデルファイル(約1GB)を自動的にダウンロードします。このプロセスは、ネットワークの状況に応じて数分から数十分かかる場合があります。モデルファイルはローカルにキャッシュされるため、次回の実行時に再度ダウンロードする必要はありません。
インストール
uvの使用(推奨)
uvを使用する場合、特別なインストールは必要ありません。uvxを使用してビデオ抽出サーバーを直接実行します。
FFmpegをインストールする
オーディオ処理にはFFmpegが必要です。以下の方法でインストールできます。
使用法
クロード/カーソルの設定
Claude/Cursor 設定に追加:
利用可能なMCPツール
- ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします
- オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します
- ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)
- 音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します
構成
サービスは環境変数を通じて設定できます:
ウィスパー構成
WHISPER_MODEL
: ウィスパーモデルのサイズ(tiny/base/small/medium/large)、デフォルト: 'base'WHISPER_LANGUAGE
: 転写の言語設定、デフォルト: 'auto'
YouTubeダウンロード設定
YOUTUBE_FORMAT
: ダウンロードするビデオ形式、デフォルト: 'bestaudio'AUDIO_FORMAT
: 抽出するオーディオ形式、デフォルト: 'mp3'AUDIO_QUALITY
: オーディオ品質設定、デフォルト: '192'
ストレージ構成
TEMP_DIR
: 一時ファイルの保存場所、デフォルト: '/tmp/mcp-video'
ダウンロード設定
DOWNLOAD_RETRIES
: ダウンロードの再試行回数、デフォルト: 10FRAGMENT_RETRIES
: フラグメントダウンロードの再試行回数、デフォルト: 10SOCKET_TIMEOUT
: ソケットのタイムアウト(秒)、デフォルト: 30
パフォーマンス最適化のヒント
- GPUアクセラレーション:
- CUDAとcuDNNをインストールする
- PyTorchのGPUバージョンがインストールされていることを確認する
- モデルサイズ調整:
- tiny: 最も速いが精度は低い
- ベース:バランスの取れた速度と精度
- 大きい: 最高の精度だが、より多くのリソースが必要
- I/O パフォーマンスを向上させるために一時ファイルに SSD ストレージを使用する
注記
- 初回実行時にWhisperモデル(約1GB)をダウンロードする必要があります
- 一時的なオーディオファイル用の十分なディスク容量を確保する
- YouTube動画のダウンロードには安定したネットワーク接続が必要です
- より高速なオーディオ処理にはGPUを推奨
- 長い動画の処理にはかなり時間がかかる場合があります
MCP統合ガイド
このサーバーは、次のような MCP 互換クライアントで使用できます。
- クロードデスクトップ
- カスタムMCPクライアント
- その他のMCP対応アプリケーション
MCP の詳細については、モデル コンテキスト プロトコルを参照してください。
ドキュメント
このドキュメントの中国語版については、 README_zh.mdを参照してください。
ライセンス
マサチューセッツ工科大学
This server cannot be installed
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
YouTube、Bilibili、TikTok などのさまざまなプラットフォームからビデオをダウンロードしたり、オーディオを抽出したりして、OpenAI の Whisper モデルを使用してテキストに転記する MCP サーバー。
Related MCP Servers
- -securityAlicense-qualityEnables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.Last updated -4PythonMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- -securityFlicense-qualitySimple MCP server that returns the transcription of a Youtube video using url and desired language.Last updated -Python
- -securityAlicense-qualityAn MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.Last updated -41JavaScriptMIT License