Integrations
Supports downloading videos and extracting audio content for transcription using Whisper
Enables downloading videos and extracting audio content for transcription using Whisper
Supports downloading videos and extracting audio content for transcription using Whisper
MCP ビデオ & オーディオ テキスト抽出サーバー
様々な動画プラットフォームや音声ファイルからテキスト抽出機能を提供するMCPサーバー。このサーバーは、モデルコンテキストプロトコル(MCP)を実装し、音声文字変換サービスへの標準化されたアクセスを提供します。
サポートされているプラットフォーム
このサービスは、以下を含むさまざまなプラットフォームからのビデオのダウンロードとオーディオの抽出をサポートしています:
- ユーチューブ
- ビリビリ
- ティックトック
- インスタグラム
- ツイッター/X
- フェイスブック
- ヴィメオ
- デイリーモーション
- サウンドクラウド
サポートされているプラットフォームの完全なリストについては、 yt-dlp がサポートされているサイトをご覧ください。
コアテクノロジー
このプロジェクトでは、OpenAIのWhisperモデルを活用し、MCPツールを介して音声テキスト処理を行います。サーバーは4つの主要なツールを公開しています。
- ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします
- オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します
- ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)
- 音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します
MCP統合
このサーバーは、次の機能を提供するモデル コンテキスト プロトコルを使用して構築されています。
- LLMにツールを公開するための標準化された方法
- ビデオコンテンツとオーディオファイルへの安全なアクセス
- Claude DesktopなどのMCPクライアントとの統合
特徴
- Whisperに基づく高品質の音声認識
- 多言語テキスト認識
- さまざまなオーディオ形式(mp3、wav、m4a など)をサポート
- MCP準拠ツールインターフェース
- 大きなファイルの非同期処理
技術スタック
- Python 3.10以上
- モデルコンテキストプロトコル (MCP) Python SDK
- yt-dlp(YouTube動画のダウンロード)
- openai-whisper(コア音声テキスト変換エンジン)
- ピダンティック
システム要件
- FFmpeg(オーディオ処理に必要)
- 最低8GBのRAM
- 推奨される GPU アクセラレーション (NVIDIA GPU + CUDA)
- 十分なディスク容量(モデルのダウンロードと一時ファイル用)
初回実行に関する重要なお知らせ
**重要:**初回実行時に、システムはWhisperモデルファイル(約1GB)を自動的にダウンロードします。このプロセスは、ネットワークの状況に応じて数分から数十分かかる場合があります。モデルファイルはローカルにキャッシュされるため、次回の実行時に再度ダウンロードする必要はありません。
インストール
uvの使用(推奨)
uvを使用する場合、特別なインストールは必要ありません。uvxを使用してビデオ抽出サーバーを直接実行します。
FFmpegをインストールする
オーディオ処理にはFFmpegが必要です。以下の方法でインストールできます。
使用法
クロード/カーソルの設定
Claude/Cursor 設定に追加:
利用可能なMCPツール
- ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします
- オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します
- ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)
- 音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します
構成
サービスは環境変数を通じて設定できます:
ウィスパー構成
WHISPER_MODEL
: ウィスパーモデルのサイズ(tiny/base/small/medium/large)、デフォルト: 'base'WHISPER_LANGUAGE
: 転写の言語設定、デフォルト: 'auto'
YouTubeダウンロード設定
YOUTUBE_FORMAT
: ダウンロードするビデオ形式、デフォルト: 'bestaudio'AUDIO_FORMAT
: 抽出するオーディオ形式、デフォルト: 'mp3'AUDIO_QUALITY
: オーディオ品質設定、デフォルト: '192'
ストレージ構成
TEMP_DIR
: 一時ファイルの保存場所、デフォルト: '/tmp/mcp-video'
ダウンロード設定
DOWNLOAD_RETRIES
: ダウンロードの再試行回数、デフォルト: 10FRAGMENT_RETRIES
: フラグメントダウンロードの再試行回数、デフォルト: 10SOCKET_TIMEOUT
: ソケットのタイムアウト(秒)、デフォルト: 30
パフォーマンス最適化のヒント
- GPUアクセラレーション:
- CUDAとcuDNNをインストールする
- PyTorchのGPUバージョンがインストールされていることを確認する
- モデルサイズ調整:
- tiny: 最も速いが精度は低い
- ベース:バランスの取れた速度と精度
- 大きい: 最高の精度だが、より多くのリソースが必要
- I/O パフォーマンスを向上させるために一時ファイルに SSD ストレージを使用する
注記
- 初回実行時にWhisperモデル(約1GB)をダウンロードする必要があります
- 一時的なオーディオファイル用の十分なディスク容量を確保する
- YouTube動画のダウンロードには安定したネットワーク接続が必要です
- より高速なオーディオ処理にはGPUを推奨
- 長い動画の処理にはかなり時間がかかる場合があります
MCP統合ガイド
このサーバーは、次のような MCP 互換クライアントで使用できます。
- クロードデスクトップ
- カスタムMCPクライアント
- その他のMCP対応アプリケーション
MCP の詳細については、モデル コンテキスト プロトコルを参照してください。
ドキュメント
このドキュメントの中国語版については、 README_zh.mdを参照してください。
ライセンス
マサチューセッツ工科大学
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
YouTube、Bilibili、TikTok などのさまざまなプラットフォームからビデオをダウンロードしたり、オーディオを抽出したりして、OpenAI の Whisper モデルを使用してテキストに転記する MCP サーバー。
Related MCP Servers
- -securityAlicense-qualityEnables recording audio from a microphone and transcribing it using OpenAI's Whisper model. Works as both a standalone MCP server and a Goose AI agent extension.Last updated -4PythonMIT License
- AsecurityAlicenseAqualityA MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.Last updated -12JavaScriptMIT License
- -securityFlicense-qualitySimple MCP server that returns the transcription of a Youtube video using url and desired language.Last updated -Python
- -security-license-qualityAn MCP server that enables LLMs to generate spoken audio from text using OpenAI's Text-to-Speech API, supporting various voices, models, and audio formats.Last updated -1JavaScriptMIT License