MCP ビデオ & オーディオテキスト抽出サーバー

様々な動画プラットフォームや音声ファイルからテキスト抽出機能を提供するMCPサーバー。このサーバーは、モデルコンテキストプロトコル（MCP）を実装し、音声文字変換サービスへの標準化されたアクセスを提供します。

サポートされているプラットフォーム

このサービスは、以下を含むさまざまなプラットフォームからのビデオのダウンロードとオーディオの抽出をサポートしています:

ユーチューブ
ビリビリ
ティックトック
インスタグラム
ツイッター/X
フェイスブック
ヴィメオ
デイリーモーション
サウンドクラウド

サポートされているプラットフォームの完全なリストについては、 yt-dlp がサポートされているサイトをご覧ください。

コアテクノロジー

このプロジェクトでは、OpenAIのWhisperモデルを活用し、MCPツールを介して音声テキスト処理を行います。サーバーは4つの主要なツールを公開しています。

ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします
オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します
ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)
音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します

MCP統合

このサーバーは、次の機能を提供するモデルコンテキストプロトコルを使用して構築されています。

LLMにツールを公開するための標準化された方法
ビデオコンテンツとオーディオファイルへの安全なアクセス
Claude DesktopなどのMCPクライアントとの統合

特徴

Whisperに基づく高品質の音声認識
多言語テキスト認識
さまざまなオーディオ形式（mp3、wav、m4a など）をサポート
MCP準拠ツールインターフェース
大きなファイルの非同期処理

技術スタック

Python 3.10以上
モデルコンテキストプロトコル (MCP) Python SDK
yt-dlp（YouTube動画のダウンロード）
openai-whisper（コア音声テキスト変換エンジン）
ピダンティック

システム要件

FFmpeg（オーディオ処理に必要）
最低8GBのRAM
推奨される GPU アクセラレーション (NVIDIA GPU + CUDA)
十分なディスク容量（モデルのダウンロードと一時ファイル用）

初回実行に関する重要なお知らせ

**重要：**初回実行時に、システムはWhisperモデルファイル（約1GB）を自動的にダウンロードします。このプロセスは、ネットワークの状況に応じて数分から数十分かかる場合があります。モデルファイルはローカルにキャッシュされるため、次回の実行時に再度ダウンロードする必要はありません。

インストール

uvの使用（推奨）

uvを使用する場合、特別なインストールは必要ありません。uvxを使用してビデオ抽出サーバーを直接実行します。

curl -LsSf https://astral.sh/uv/install.sh | sh

FFmpegをインストールする

オーディオ処理にはFFmpegが必要です。以下の方法でインストールできます。

# Ubuntu or Debian
sudo apt update && sudo apt install ffmpeg

# Arch Linux
sudo pacman -S ffmpeg

# MacOS
brew install ffmpeg

# Windows (using Chocolatey)
choco install ffmpeg

# Windows (using Scoop)
scoop install ffmpeg

使用法

クロード/カーソルの設定

Claude/Cursor 設定に追加:

"mcpServers": {
  "video-extraction": {
    "command": "uvx",
    "args": ["mcp-video-extraction"]
  }
}

利用可能なMCPツール

ビデオのダウンロード: サポートされているプラットフォームからビデオをダウンロードします
オーディオダウンロード: サポートされているプラットフォーム上のビデオからオーディオを抽出します
ビデオテキスト抽出: ビデオからテキストを抽出 (ダウンロードして文字起こし)
音声ファイルのテキスト抽出:音声ファイルからテキストを抽出します

構成

サービスは環境変数を通じて設定できます:

ウィスパー構成

WHISPER_MODEL : ウィスパーモデルのサイズ（tiny/base/small/medium/large）、デフォルト: 'base'
WHISPER_LANGUAGE : 転写の言語設定、デフォルト: 'auto'

YouTubeダウンロード設定

YOUTUBE_FORMAT : ダウンロードするビデオ形式、デフォルト: 'bestaudio'
AUDIO_FORMAT : 抽出するオーディオ形式、デフォルト: 'mp3'
AUDIO_QUALITY : オーディオ品質設定、デフォルト: '192'

ストレージ構成

TEMP_DIR : 一時ファイルの保存場所、デフォルト: '/tmp/mcp-video'

ダウンロード設定

DOWNLOAD_RETRIES : ダウンロードの再試行回数、デフォルト: 10
FRAGMENT_RETRIES : フラグメントダウンロードの再試行回数、デフォルト: 10
SOCKET_TIMEOUT : ソケットのタイムアウト（秒）、デフォルト: 30

パフォーマンス最適化のヒント

GPUアクセラレーション:
- CUDAとcuDNNをインストールする
- PyTorchのGPUバージョンがインストールされていることを確認する
モデルサイズ調整:
- tiny: 最も速いが精度は低い
- ベース：バランスの取れた速度と精度
- 大きい: 最高の精度だが、より多くのリソースが必要
I/O パフォーマンスを向上させるために一時ファイルに SSD ストレージを使用する

注記

初回実行時にWhisperモデル（約1GB）をダウンロードする必要があります
一時的なオーディオファイル用の十分なディスク容量を確保する
YouTube動画のダウンロードには安定したネットワーク接続が必要です
より高速なオーディオ処理にはGPUを推奨
長い動画の処理にはかなり時間がかかる場合があります

MCP統合ガイド

このサーバーは、次のような MCP 互換クライアントで使用できます。

クロードデスクトップ
カスタムMCPクライアント
その他のMCP対応アプリケーション

MCP の詳細については、モデルコンテキストプロトコルを参照してください。

ドキュメント

このドキュメントの中国語版については、 README_zh.mdを参照してください。

ライセンス

マサチューセッツ工科大学

This server cannot be installed

security - not tested

license - not found

quality - not tested

How are these scores calculated?

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

YouTube、Bilibili、TikTok などのさまざまなプラットフォームからビデオをダウンロードしたり、オーディオを抽出したりして、OpenAI の Whisper モデルを使用してテキストに転記する MCP サーバー。

Related MCP Servers

Audio Transcriber MCP Server
Ichigo3766
A
security
A
license
A
quality
A MCP server that enables transcription of audio files using OpenAI's Speech-to-Text API, with support for multiple languages and file saving options.
Last updated -
1
0
7
JavaScript
MIT License
mcp-ytTranscript
Dan-Camargo
-
security
F
license
-
quality
Simple MCP server that returns the transcription of a Youtube video using url and desired language.
Last updated -
Python
BiliMind-MCP
jiaohuix
-
security
F
license
-
quality
An MCP server that generates structured notes from Bilibili videos by automatically downloading audio, transcribing with Whisper, and processing through LLM.
Last updated -
5
Python
Voice to Text MCP Server
gongjiaben
-
security
F
license
-
quality
A powerful speech-to-text MCP server that supports multiple audio formats and recognition engines including remote APIs (Bailian, OpenAI Whisper, iFLYTEK), Google Speech Recognition, and CMU Sphinx.
Last updated -
Python

View all related MCP servers

MCP Video & Audio Text Extraction Server