
MCP オープンビジョン
概要
MCP OpenVisionは、OpenRouterビジョンモデルを活用した画像解析機能を提供するモデルコンテキストプロトコル(MCP)サーバーです。MCPエコシステム内のシンプルなインターフェースを介して、AIアシスタントが画像を解析できるようになります。
インストール
Smithery経由でインストール
Smithery経由で Claude Desktop 用の mcp-openvision を自動的にインストールするには:
pipの使用
UVの使用(推奨)
構成
MCP OpenVision には OpenRouter API キーが必要であり、環境変数を通じて設定できます。
OPENROUTER_API_KEY (必須): OpenRouter APIキー
OPENROUTER_DEFAULT_MODEL (オプション): 使用するビジョンモデル
OpenRouter ビジョンモデル
MCP OpenVisionは、ビジョン機能をサポートするあらゆるOpenRouterモデルで動作します。デフォルトのモデルはqwen/qwen2.5-vl-32b-instruct:freeですが、互換性のある他のモデルを指定することもできます。
OpenRouter で利用できる一般的なビジョン モデルには次のようなものがあります。
qwen/qwen2.5-vl-32b-instruct:free(デフォルト)anthropic/claude-3-5-sonnetanthropic/claude-3-opusanthropic/claude-3-sonnetopenai/gpt-4o
OPENROUTER_DEFAULT_MODEL環境変数を設定するか、 modelパラメータをimage_analysis関数に直接渡すことで、カスタム モデルを指定できます。
使用法
MCP Inspectorによるテスト
MCP OpenVision をテストする最も簡単な方法は、MCP Inspector ツールを使用することです。
Claude DesktopまたはCursorとの統合
MCP 構成ファイルを編集します。
Windows:
%USERPROFILE%\.cursor\mcp.jsonmacOS:
~/.cursor/mcp.jsonまたは~/Library/Application Support/Claude/claude_desktop_config.json
次の構成を追加します。
開発のためにローカルで実行する
特徴
MCP OpenVision は次のコア ツールを提供します。
image_analysis : さまざまなパラメータをサポートするビジョンモデルを使用して画像を分析します。
image: 次のように提供できます:Base64エンコードされた画像データ
画像URL(http/https)
ローカルファイルパス
query: 画像解析タスクのユーザー指示system_prompt: モデルの役割と動作を定義する指示(オプション)model: 使用するビジョンモデルtemperature: ランダム性を制御します (0.0-1.0)max_tokens: 最大レスポンス長
効果的なクエリの作成
queryパラメータは、画像分析から有用な結果を得るために不可欠です。適切に作成されたクエリは、以下のコンテキストを提供します。
目的: この画像を分析する理由
焦点領域: 注目すべき特定の要素または詳細
必要な情報: 抽出する必要がある情報の種類
フォーマット設定: 結果をどのように構造化するか
効果的なクエリの例
基本クエリ | 拡張クエリ |
「この画像を説明してください」 | 「この店舗の棚の画像に表示されているすべての小売製品を識別し、その価格帯を推定してください」 |
「この画像には何があるの?」 | 「この医療スキャンを分析して異常がないか調べ、強調表示された領域に焦点を当て、考えられる診断を提供します。」 |
「このチャートを分析してください」 | 「四半期ごとの売上を示すこの棒グラフから数値データを抽出し、2022年から2023年の主要な傾向を特定します。」 |
「テキストを読む」 | 「このレストランのメニューに表示されているすべてのテキストを、品名、説明、価格を残して書き写してください」 |
分析が必要な理由や、求めている具体的な情報についてのコンテキストを提供することで、モデルが関連する詳細に焦点を合わせ、より価値のある洞察を生み出すのに役立ちます。
使用例
画像入力タイプ
image_analysisツールは、いくつかの種類の画像入力を受け入れます。
Base64エンコードされた文字列
画像の URL - http:// または https:// で始まる必要があります
ファイルパス:
絶対パス: / (Unix) またはドライブ文字 (Windows) で始まる完全なパス
相対パス: 現在の作業ディレクトリからの相対パス
project_root を使用した相対パス:
project_rootパラメータを使用してベースディレクトリを指定します。
相対パスの使用
相対ファイル パス (「examples/image.jpg」など) を使用する場合は、次の 2 つのオプションがあります。
パスは、サーバーが動作している現在の作業ディレクトリからの相対パスでなければなりません。
または、
project_rootパラメータを指定することもできます。
これは、現在の作業ディレクトリが予測できないアプリケーションや、特定のディレクトリに対する相対パスを使用してファイルを参照する場合に特に便利です。
発達
開発環境のセットアップ
コードのフォーマット
このプロジェクトでは、Blackを使って自動コードフォーマットを行っています。フォーマットはGitHub Actionsを通じて強制されます。
リポジトリにプッシュされたすべてのコードは自動的に黒でフォーマットされます
リポジトリの協力者からのプルリクエストの場合、ブラックはコードをフォーマットし、PRブランチに直接コミットします。
フォークからのプルリクエストの場合、ブラックは元のPRにマージできるフォーマットされたコードを含む新しいPRを作成します。
コミットする前に、Black をローカルで実行してコードをフォーマットすることもできます。
テストを実行する
リリースプロセス
このプロジェクトでは、自動リリース プロセスを使用します。
セマンティックバージョニングの原則に従って
pyproject.tomlのバージョンを更新します。ヘルパースクリプトを使用できます:
python scripts/bump_version.py [major|minor|patch]
CHANGELOG.md新しいバージョンの詳細で更新します。このスクリプトはCHANGELOG.mdにテンプレートエントリを作成し、それを入力することができます。
これらの変更をコミットして
mainブランチにプッシュしますGitHub Actions ワークフローは次のようになります。
バージョンの変更を検出する
新しいGitHubリリースを自動的に作成する
PyPIに公開する公開ワークフローをトリガーする
この自動化により、一貫したリリース プロセスが維持され、すべてのリリースが適切にバージョン管理され、文書化されることが保証されます。
サポート
このプロジェクトが役に立つと思われる場合は、進行中の開発とメンテナンスをサポートするために私にコーヒーを買っていただけると幸いです。
ライセンス
このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細についてはLICENSEファイルを参照してください。
Related MCP Servers
- -security-license-qualityAn MCP server for analyzing images using OpenRouter vision models, offering capabilities like automatic image resizing, model configuration, and handling custom queries about images.Last updated -8MIT License
- -security-license-qualityA Model Context Protocol server that provides AI vision capabilities for analyzing UI screenshots, offering tools for screen analysis, file operations, and UI/UX report generation.
- -security-license-qualityA Model Context Protocol server enabling AI assistants to generate images through OpenAI's DALL-E API with full support for all available options and fine-grained control.Last updated -61MIT License
- -security-license-qualityA comprehensive Model Context Protocol server implementation that enables AI assistants to interact with file systems, databases, GitHub repositories, web resources, and system tools while maintaining security and control.Last updated -361