MCP ビデオ認識サーバー
Google の Gemini AI を使用して画像、音声、ビデオ認識用のツールを提供する MCP (Model Context Protocol) サーバー。
特徴
- 画像認識: Google Gemini AI を使用して画像を分析および説明する
- 音声認識: Google Gemini AI を使用して音声を分析し、書き起こします
- 動画認識: Google Gemini AI を使用して動画を分析し、説明する
前提条件
- Node.js 18以上
- Google Gemini APIキー
インストール
手動インストール
- リポジトリをクローンします。Copy
- 依存関係をインストールします:Copy
- プロジェクトをビルドします。Copy
FLUJOへのインストール
- サーバーの追加をクリック
- Github URL をコピーして FLUJO に貼り付けます
- 「解析」、「複製」、「インストール」、「ビルド」、「保存」をクリックします。
設定ファイルによるインストール
構成ファイルを介してこの MCP サーバーを Cline または他の MCP クライアントと統合するには、次の手順を実行します。
- Cline 設定を開きます:
- VS Codeで、「ファイル」->「設定」->「設定」に移動します。
- 「Cline MCP 設定」を検索
- 「settings.jsonで編集」をクリック
mcpServers
オブジェクトにサーバー構成を追加します。Copy/path/to/mcp-video-recognition/dist/index.js
を、プロジェクトディレクトリ内のindex.js
ファイルへの実際のパスに置き換えてください。Windows の場合は、パスにスラッシュ (/) または二重のバックスラッシュ (\\) を使用してください。- 設定ファイルを保存します。Cline は自動的にサーバーに接続します。
構成
サーバーは環境変数を使用して構成されます。
GOOGLE_API_KEY
(必須): Google Gemini API キーTRANSPORT_TYPE
: 使用するトランスポートタイプ (stdio
またはsse
、デフォルトはstdio
)PORT
: SSEトランスポートのポート番号(デフォルトは3000)LOG_LEVEL
: ログレベル (verbose
、debug
、info
、warn
、error
、デフォルトはinfo
)
使用法
サーバーの起動
stdioトランスポートあり(デフォルト)
Copy
SSEトランスポート
Copy
ツールの使用
サーバーは、MCP クライアントから呼び出すことができる 3 つのツールを提供します。
画像認識
Copy
音声認識
Copy
ビデオ認識
Copy
ツールパラメータ
すべてのツールは次のパラメータを受け入れます。
filepath
(必須): 分析するメディアファイルへのパスprompt
(オプション):認識のためのカスタムプロンプト(デフォルトは「このコンテンツを説明してください」)modelname
(オプション): 認識に使用する Gemini モデル (デフォルトは "gemini-2.0-flash")
発達
開発モードで実行
Copy
プロジェクト構造
src/index.ts
: エントリポイントsrc/server.ts
: MCP サーバーの実装src/tools/
: ツールの実装src/services/
: サービス実装 (Gemini API)src/types/
: 型定義src/utils/
: ユーティリティ関数
ライセンス
マサチューセッツ工科大学
This server cannot be installed
モデル コンテキスト プロトコルを通じて Google の Gemini AI を使用して、画像、音声、ビデオを認識するためのツールを提供します。