AI Vision MCP Server

Integrations

  • Runs on Node.js 14+ as the server environment required for operating the MCP functionality

AIビジョンMCPサーバー

Claude やその他の MCP 互換 AI アシスタントに AI を活用した視覚分析機能を提供するモデル コンテキスト プロトコル (MCP) サーバー。

特徴

  • スクリーンショットURL : URLを指定して任意のウェブサイトのスクリーンショットをキャプチャします
  • 視覚分析: スクリーンショット内の UI 要素、レイアウト、コンテンツを分析します
  • ファイル操作: 行単位の精度でファイルを読み取り、変更します
  • レポート生成: 包括的なUI/UX分析レポートを作成する
  • デバッグセッション: 複数の分析ステップにわたってコンテキストを維持する

インストール

# Clone the repository git clone https://github.com/samihalawa/mcp-server-ai-vision.git cd mcp-server-ai-vision # Install dependencies npm install # Build the server npm run build

使用法

サーバーの起動

npm start

構成

サーバーを MCP 構成に追加します。

{ "servers": { "ai-vision": { "command": "/path/to/node", "args": ["/path/to/mcp-server-ai-vision/build/index.js"], "enabled": true, "port": 3005, "environment": { "NODE_PATH": "/path/to/node_modules", "PATH": "/usr/local/bin:/usr/bin:/bin", "GEMINI_API_KEY": "your-gemini-api-key" } } } }

利用可能なツール

スクリーンショットURL

Web ブラウザを使用して URL のスクリーンショットを撮ります。

パラメータ:

  • url (文字列、必須): スクリーンショットをキャプチャするURL (例: http://localhost:4999https://google.com )
  • fullPage (ブール値、オプション):ページ全体をキャプチャするか、ビューポートのみをキャプチャするか。デフォルト:false
  • waitForSelector (文字列、オプション): スクリーンショットを撮る前に待機する CSS セレクター
  • waitTime (数値、オプション): スクリーンショットを撮るまでの待機時間(ミリ秒)。デフォルト: 1000
分析画面

AIビジョンでスクリーンショットを分析します。

パラメータ: なし (最新のスクリーンショットを使用)

読み取りファイル

指定された行番号間のファイルの内容を読み取ります。

パラメータ:

  • path (文字列): ファイルへのパス
  • startLine (数値): 開始行番号(1から始まる)
  • endLine (数値): 終了行番号(1から始まる)
ファイルの変更

指定された行番号間のファイルの内容を変更します。

パラメータ:

  • path (文字列): ファイルへのパス
  • startLine (数値): 置換する開始行番号(1から始まるインデックス)
  • endLine (数値): 置換する終了行番号 (1から始まるインデックス)
  • content (文字列): 指定された行を置き換える新しいコンテンツ
レポートを生成する

包括的な UI/UX 分析レポートを生成します。

パラメータ:

  • testUrl (文字列): テスト対象のアプリケーションのURL
  • appName (文字列、オプション): 分析対象のアプリケーションの名前
  • date (文字列、オプション):分析の日付(YYYY-MM-DD)
  • observations (オブジェクト):コンポーネント、データ状態、相互作用などとして構造化された観察。

ワークフローの例

  1. ウェブサイトのスクリーンショットを撮ります。
    screenshot_url(url: "https://example.com")
  2. スクリーンショットを分析します。
    analyze_screen()
  3. 分析に基づいてレポートを生成します。
    generate_report(testUrl: "https://example.com", observations: {...})

要件

  • Node.js 14以上
  • ブラウザ自動化のためのPlaywright
  • AIビジョン分析用のGemini APIキー

ライセンス

マサチューセッツ工科大学

-
security - not tested
F
license - not found
-
quality - not tested

Claude やその他の MCP 対応 AI アシスタントに AI を活用した視覚分析機能を提供し、スクリーンショットのキャプチャと分析、ファイル操作の実行、UI/UX レポートの生成を可能にします。

  1. 特徴
    1. インストール
      1. 使用法
        1. サーバーの起動
        2. 構成
        3. 利用可能なツール
      2. ワークフローの例
        1. 要件
          1. ライセンス

            Related MCP Servers

            • A
              security
              A
              license
              A
              quality
              A custom MCP tool that integrates Perplexity AI's API with Claude Desktop, allowing Claude to perform web-based research and provide answers with citations.
              Last updated -
              1
              2
              JavaScript
              MIT License
              • Apple
            • -
              security
              F
              license
              -
              quality
              Enables AI tools to capture and process screenshots of a user's screen, allowing AI assistants to see and analyze what the user is looking at through a simple MCP interface.
              Last updated -
              1
              Python
              • Linux
              • Apple
            • -
              security
              A
              license
              -
              quality
              An MCP server that bridges AI agents with GUI automation capabilities, allowing them to control mouse, keyboard, windows, and take screenshots to interact with desktop applications.
              Last updated -
              Python
              MIT License
              • Apple
              • Linux
            • A
              security
              A
              license
              A
              quality
              An MCP server that supercharges AI assistants with powerful tools for software development, enabling research, planning, code generation, and project scaffolding through natural language interaction.
              Last updated -
              11
              6
              TypeScript
              MIT License
              • Linux
              • Apple

            View all related MCP servers

            ID: p4nhzy0of0