Skip to main content
Glama

AI Vision Debug MCP Server

AIビジョンMCPサーバー

Claude やその他の MCP 互換 AI アシスタントに AI を活用した視覚分析機能を提供するモデル コンテキスト プロトコル (MCP) サーバー。

特徴

  • スクリーンショットURL : URLを指定して任意のウェブサイトのスクリーンショットをキャプチャします
  • 視覚分析: スクリーンショット内の UI 要素、レイアウト、コンテンツを分析します
  • ファイル操作: 行単位の精度でファイルを読み取り、変更します
  • レポート生成: 包括的なUI/UX分析レポートを作成する
  • デバッグセッション: 複数の分析ステップにわたってコンテキストを維持する

インストール

# Clone the repository git clone https://github.com/samihalawa/mcp-server-ai-vision.git cd mcp-server-ai-vision # Install dependencies npm install # Build the server npm run build

使用法

サーバーの起動

npm start

構成

サーバーを MCP 構成に追加します。

{ "servers": { "ai-vision": { "command": "/path/to/node", "args": ["/path/to/mcp-server-ai-vision/build/index.js"], "enabled": true, "port": 3005, "environment": { "NODE_PATH": "/path/to/node_modules", "PATH": "/usr/local/bin:/usr/bin:/bin", "GEMINI_API_KEY": "your-gemini-api-key" } } } }

利用可能なツール

スクリーンショットURL

Web ブラウザを使用して URL のスクリーンショットを撮ります。

パラメータ:

  • url (文字列、必須): スクリーンショットをキャプチャするURL (例: http://localhost:4999https://google.com )
  • fullPage (ブール値、オプション):ページ全体をキャプチャするか、ビューポートのみをキャプチャするか。デフォルト:false
  • waitForSelector (文字列、オプション): スクリーンショットを撮る前に待機する CSS セレクター
  • waitTime (数値、オプション): スクリーンショットを撮るまでの待機時間(ミリ秒)。デフォルト: 1000
分析画面

AIビジョンでスクリーンショットを分析します。

パラメータ: なし (最新のスクリーンショットを使用)

読み取りファイル

指定された行番号間のファイルの内容を読み取ります。

パラメータ:

  • path (文字列): ファイルへのパス
  • startLine (数値): 開始行番号(1から始まる)
  • endLine (数値): 終了行番号(1から始まる)
ファイルの変更

指定された行番号間のファイルの内容を変更します。

パラメータ:

  • path (文字列): ファイルへのパス
  • startLine (数値): 置換する開始行番号(1から始まるインデックス)
  • endLine (数値): 置換する終了行番号 (1から始まるインデックス)
  • content (文字列): 指定された行を置き換える新しいコンテンツ
レポートを生成する

包括的な UI/UX 分析レポートを生成します。

パラメータ:

  • testUrl (文字列): テスト対象のアプリケーションのURL
  • appName (文字列、オプション): 分析対象のアプリケーションの名前
  • date (文字列、オプション):分析の日付(YYYY-MM-DD)
  • observations (オブジェクト):コンポーネント、データ状態、相互作用などとして構造化された観察。

ワークフローの例

  1. ウェブサイトのスクリーンショットを撮ります。
    screenshot_url(url: "https://example.com")
  2. スクリーンショットを分析します。
    analyze_screen()
  3. 分析に基づいてレポートを生成します。
    generate_report(testUrl: "https://example.com", observations: {...})

要件

  • Node.js 14以上
  • ブラウザ自動化のためのPlaywright
  • AIビジョン分析用のGemini APIキー

ライセンス

マサチューセッツ工科大学

Install Server
A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

hybrid server

The server is able to function both locally and remotely, depending on the configuration or use case.

UI スクリーンショットを分析するための AI ビジョン機能を提供し、画面分析、ファイル操作、UI/UX レポート生成のためのツールを提供するモデル コンテキスト プロトコル サーバー。

  1. 特徴
    1. インストール
      1. 使用法
        1. サーバーの起動
        2. 構成
        3. 利用可能なツール
      2. ワークフローの例
        1. 要件
          1. ライセンス

            Related MCP Servers

            • A
              security
              A
              license
              A
              quality
              A Model Context Protocol server that provides browser automation capabilities using Playwright. This server enables LLMs to interact with web pages, take screenshots, and execute JavaScript in a real browser environment.
              Last updated -
              13
              10,911
              3,915
              TypeScript
              MIT License
              • Linux
              • Apple
            • A
              security
              A
              license
              A
              quality
              An official MCP server implementation that allows AI assistants to capture website screenshots through the ScreenshotOne API, enabling visual context from web pages during conversations.
              Last updated -
              1
              36
              21
              TypeScript
              MIT License
              • Apple
            • -
              security
              F
              license
              -
              quality
              A server that provides rich UI context and interaction capabilities to AI models, enabling deep understanding of user interfaces through visual analysis and precise interaction via Model Context Protocol.
              Last updated -
              24
              Python
              • Linux
              • Apple
            • -
              security
              A
              license
              -
              quality
              A Model Context Protocol server enabling AI assistants to generate images through OpenAI's DALL-E API with full support for all available options and fine-grained control.
              Last updated -
              14
              1
              JavaScript
              MIT License

            View all related MCP servers

            MCP directory API

            We provide all the information about MCP servers via our MCP API.

            curl -X GET 'https://glama.ai/api/mcp/v1/servers/samihalawa/mcp-server-ai-vision'

            If you have feedback or need assistance with the MCP directory API, please join our Discord server