Skip to main content
Glama

MCP Video Recognition Server

MCP ビデオ認識サーバー

Google の Gemini AI を使用して画像、音声、ビデオ認識用のツールを提供する MCP (Model Context Protocol) サーバー。

特徴

  • 画像認識: Google Gemini AI を使用して画像を分析および説明する
  • 音声認識: Google Gemini AI を使用して音声を分析し、書き起こします
  • 動画認識: Google Gemini AI を使用して動画を分析し、説明する

前提条件

  • Node.js 18以上
  • Google Gemini APIキー

インストール

手動インストール

  1. リポジトリをクローンします。
    git clone https://github.com/yourusername/mcp-video-recognition.git cd mcp-video-recognition
  2. 依存関係をインストールします:
    npm install
  3. プロジェクトをビルドします。
    npm run build

FLUJOへのインストール

  1. サーバーの追加をクリック
  2. Github URL をコピーして FLUJO に貼り付けます
  3. 「解析」、「複製」、「インストール」、「ビルド」、「保存」をクリックします。

設定ファイルによるインストール

構成ファイルを介してこの MCP サーバーを Cline または他の MCP クライアントと統合するには、次の手順を実行します。

  1. Cline 設定を開きます:
    • VS Codeで、「ファイル」->「設定」->「設定」に移動します。
    • 「Cline MCP 設定」を検索
    • 「settings.jsonで編集」をクリック
  2. mcpServersオブジェクトにサーバー構成を追加します。
    { "mcpServers": { "video-recognition": { "command": "node", "args": [ "/path/to/mcp-video-recognition/dist/index.js" ], "disabled": false, "autoApprove": [] } } }
  3. /path/to/mcp-video-recognition/dist/index.jsを、プロジェクトディレクトリ内のindex.jsファイルへの実際のパスに置き換えてください。Windows の場合は、パスにスラッシュ (/) または二重のバックスラッシュ (\\) を使用してください。
  4. 設定ファイルを保存します。Cline は自動的にサーバーに接続します。

構成

サーバーは環境変数を使用して構成されます。

  • GOOGLE_API_KEY (必須): Google Gemini API キー
  • TRANSPORT_TYPE : 使用するトランスポートタイプ ( stdioまたはsse 、デフォルトはstdio )
  • PORT : SSEトランスポートのポート番号(デフォルトは3000)
  • LOG_LEVEL : ログレベル ( verbosedebuginfowarnerror 、デフォルトはinfo )

使用法

サーバーの起動

stdioトランスポートあり(デフォルト)
GOOGLE_API_KEY=your_api_key npm start
SSEトランスポート
GOOGLE_API_KEY=your_api_key TRANSPORT_TYPE=sse PORT=3000 npm start

ツールの使用

サーバーは、MCP クライアントから呼び出すことができる 3 つのツールを提供します。

画像認識
{ "name": "image_recognition", "arguments": { "filepath": "/path/to/image.jpg", "prompt": "Describe this image in detail", "modelname": "gemini-2.0-flash" } }
音声認識
{ "name": "audio_recognition", "arguments": { "filepath": "/path/to/audio.mp3", "prompt": "Transcribe this audio", "modelname": "gemini-2.0-flash" } }
ビデオ認識
{ "name": "video_recognition", "arguments": { "filepath": "/path/to/video.mp4", "prompt": "Describe what happens in this video", "modelname": "gemini-2.0-flash" } }

ツールパラメータ

すべてのツールは次のパラメータを受け入れます。

  • filepath (必須): 分析するメディアファイルへのパス
  • prompt (オプション):認識のためのカスタムプロンプト(デフォルトは「このコンテンツを説明してください」)
  • modelname (オプション): 認識に使用する Gemini モデル (デフォルトは "gemini-2.0-flash")

発達

開発モードで実行

GOOGLE_API_KEY=your_api_key npm run dev

プロジェクト構造

  • src/index.ts : エントリポイント
  • src/server.ts : MCP サーバーの実装
  • src/tools/ : ツールの実装
  • src/services/ : サービス実装 (Gemini API)
  • src/types/ : 型定義
  • src/utils/ : ユーティリティ関数

ライセンス

マサチューセッツ工科大学

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

モデル コンテキスト プロトコルを通じて Google の Gemini AI を使用して、画像、音声、ビデオを認識するためのツールを提供します。

  1. 特徴
    1. 前提条件
      1. インストール
        1. 手動インストール
        2. FLUJOへのインストール
        3. 設定ファイルによるインストール
      2. 構成
        1. 使用法
          1. サーバーの起動
          2. ツールの使用
          3. ツールパラメータ
        2. 発達
          1. 開発モードで実行
          2. プロジェクト構造
        3. ライセンス

          Related MCP Servers

          • -
            security
            A
            license
            -
            quality
            A server that provides AI-powered image generation, modification, and processing capabilities through the Model Context Protocol, leveraging Google Gemini models and other image services.
            Last updated -
            6
            Python
            MIT License
            • Linux
            • Apple
          • A
            security
            A
            license
            A
            quality
            Allows AI assistants to generate and transform high-quality images from text prompts using Google's Gemini model via the MCP protocol.
            Last updated -
            3
            5
            Python
            MIT License
            • Apple
          • A
            security
            A
            license
            A
            quality
            A Model Context Protocol server that provides image generation capabilities using Google's Gemini 2 API, allowing users to generate multiple images with customizable parameters like prompts, aspect ratios, and person generation settings.
            Last updated -
            1
            JavaScript
            MIT License
            • Apple
            • Linux

          View all related MCP servers

          MCP directory API

          We provide all the information about MCP servers via our MCP API.

          curl -X GET 'https://glama.ai/api/mcp/v1/servers/mario-andreschak/mcp_video_recognition'

          If you have feedback or need assistance with the MCP directory API, please join our Discord server