MCP OpenVision
Überblick
MCP OpenVision ist ein Model Context Protocol (MCP)-Server, der Bildanalysefunktionen auf Basis von OpenRouter-Vision-Modellen bereitstellt. Er ermöglicht KI-Assistenten die Bildanalyse über eine einfache Schnittstelle innerhalb des MCP-Ökosystems.
Installation
Installation über Smithery
So installieren Sie mcp-openvision für Claude Desktop automatisch über Smithery :
Verwenden von pip
Verwendung von UV (empfohlen)
Konfiguration
MCP OpenVision erfordert einen OpenRouter-API-Schlüssel und kann über Umgebungsvariablen konfiguriert werden:
- OPENROUTER_API_KEY (erforderlich): Ihr OpenRouter-API-Schlüssel
- OPENROUTER_DEFAULT_MODEL (optional): Das zu verwendende Vision-Modell
OpenRouter Vision-Modelle
MCP OpenVision funktioniert mit jedem OpenRouter-Modell, das Vision-Funktionen unterstützt. Das Standardmodell ist qwen/qwen2.5-vl-32b-instruct:free
, Sie können jedoch jedes andere kompatible Modell angeben.
Zu den über OpenRouter verfügbaren beliebten Vision-Modellen gehören:
qwen/qwen2.5-vl-32b-instruct:free
(Standard)anthropic/claude-3-5-sonnet
anthropic/claude-3-opus
anthropic/claude-3-sonnet
openai/gpt-4o
Sie können benutzerdefinierte Modelle angeben, indem Sie die Umgebungsvariable OPENROUTER_DEFAULT_MODEL
festlegen oder den model
direkt an die Funktion image_analysis
übergeben.
Verwendung
Testen mit MCP Inspector
Am einfachsten testen Sie MCP OpenVision mit dem MCP Inspector-Tool:
Integration mit Claude Desktop oder Cursor
- Bearbeiten Sie Ihre MCP-Konfigurationsdatei:
- Windows:
%USERPROFILE%\.cursor\mcp.json
- macOS:
~/.cursor/mcp.json
oder~/Library/Application Support/Claude/claude_desktop_config.json
- Windows:
- Fügen Sie die folgende Konfiguration hinzu:
Lokale Ausführung für die Entwicklung
Merkmale
MCP OpenVision bietet das folgende Kerntool:
- image_analysis : Analysieren Sie Bilder mit Bildmodellen und unterstützen Sie verschiedene Parameter:
image
: Kann bereitgestellt werden als:- Base64-kodierte Bilddaten
- Bild-URL (http/https)
- Lokaler Dateipfad
query
: Benutzeranleitung für die Bildanalyseaufgabesystem_prompt
: Anweisungen, die die Rolle und das Verhalten des Modells definieren (optional)model
: Zu verwendendes Vision-Modelltemperature
: Steuert die Zufälligkeit (0,0–1,0)max_tokens
: Maximale Antwortlänge
Erstellen effektiver Abfragen
Der query
ist entscheidend für aussagekräftige Ergebnisse der Bildanalyse. Eine gut formulierte Abfrage liefert Kontext zu:
- Zweck : Warum Sie dieses Bild analysieren
- Schwerpunktbereiche : Bestimmte Elemente oder Details, auf die Sie achten sollten
- Erforderliche Informationen : Die Art der Informationen, die Sie extrahieren müssen
- Formateinstellungen : Wie die Ergebnisse strukturiert sein sollen
Beispiele für effektive Abfragen
Einfache Abfrage | Erweiterte Abfrage |
---|---|
"Beschreiben Sie dieses Bild" | „Identifizieren Sie alle Einzelhandelsprodukte, die in diesem Ladenregalbild sichtbar sind, und schätzen Sie ihre Preisspanne.“ |
"Was ist auf diesem Bild?" | „Analysieren Sie diesen medizinischen Scan auf Anomalien, konzentrieren Sie sich auf den hervorgehobenen Bereich und stellen Sie mögliche Diagnosen bereit.“ |
"Analysieren Sie dieses Diagramm" | „Extrahieren Sie die numerischen Daten aus diesem Balkendiagramm, das die Quartalsumsätze zeigt, und identifizieren Sie die wichtigsten Trends von 2022-2023.“ |
"Lies den Text" | „Transkribieren Sie den gesamten sichtbaren Text in dieser Restaurantkarte und behalten Sie dabei die Namen, Beschreibungen und Preise der Gerichte bei.“ |
Indem Sie den Kontext dazu angeben, warum Sie die Analyse benötigen und welche spezifischen Informationen Sie suchen, helfen Sie dem Modell, sich auf relevante Details zu konzentrieren und wertvollere Erkenntnisse zu gewinnen.
Beispielverwendung
Bildeingabetypen
Das Tool image_analysis
akzeptiert verschiedene Arten von Bildeingaben:
- Base64-codierte Zeichenfolgen
- Bild-URLs – müssen mit http:// oder https:// beginnen
- Dateipfade :
- Absolute Pfade : vollständige Pfade, die mit / (Unix) oder Laufwerksbuchstaben (Windows) beginnen
- Relative Pfade : Pfade relativ zum aktuellen Arbeitsverzeichnis
- Relative Pfade mit project_root : Verwenden Sie den Parameter
project_root
, um ein Basisverzeichnis anzugeben
Verwenden relativer Pfade
Wenn Sie relative Dateipfade verwenden (wie „examples/image.jpg“), haben Sie zwei Möglichkeiten:
- Der Pfad muss relativ zum aktuellen Arbeitsverzeichnis sein, in dem der Server ausgeführt wird
- Oder Sie können einen
project_root
-Parameter angeben:
Dies ist insbesondere bei Anwendungen nützlich, bei denen das aktuelle Arbeitsverzeichnis möglicherweise nicht vorhersehbar ist oder wenn Sie auf Dateien mithilfe von Pfaden relativ zu einem bestimmten Verzeichnis verweisen möchten.
Entwicklung
Einrichten der Entwicklungsumgebung
Codeformatierung
Dieses Projekt verwendet Black zur automatischen Codeformatierung. Die Formatierung wird durch GitHub Actions erzwungen:
- Der gesamte Code, der in das Repository übertragen wird, wird automatisch mit Black formatiert
- Für Pull Requests von Repository-Mitarbeitern formatiert Black den Code und committet ihn direkt in den PR-Zweig.
- Für Pull Requests von Forks erstellt Black einen neuen PR mit dem formatierten Code, der in den ursprünglichen PR integriert werden kann.
Sie können Black auch lokal ausführen, um Ihren Code vor dem Commit zu formatieren:
Tests ausführen
Freigabeprozess
Dieses Projekt verwendet einen automatisierten Freigabeprozess:
- Aktualisieren Sie die Version in
pyproject.toml
gemäß den Prinzipien der semantischen Versionierung- Sie können das Hilfsskript verwenden:
python scripts/bump_version.py [major|minor|patch]
- Sie können das Hilfsskript verwenden:
- Aktualisieren Sie die
CHANGELOG.md
mit Details zur neuen Version- Das Skript erstellt außerdem einen Vorlageneintrag in CHANGELOG.md, den Sie ausfüllen können
- Übernehmen und übertragen Sie diese Änderungen in den
main
- Der GitHub Actions-Workflow wird:
- Erkennen der Versionsänderung
- Automatisch eine neue GitHub-Version erstellen
- Lösen Sie den Veröffentlichungsworkflow aus, der auf PyPI veröffentlicht
Diese Automatisierung trägt dazu bei, einen konsistenten Veröffentlichungsprozess aufrechtzuerhalten und stellt sicher, dass jede Veröffentlichung ordnungsgemäß versioniert und dokumentiert ist.
Unterstützung
Wenn Sie dieses Projekt hilfreich finden, denken Sie darüber nach, mir einen Kaffee zu spendieren, um die laufende Entwicklung und Wartung zu unterstützen.
Lizenz
Dieses Projekt ist unter der MIT-Lizenz lizenziert – Einzelheiten finden Sie in der Datei LICENSE .
You must be authenticated.
Tools
Ein Model Context Protocol-Server, der es KI-Assistenten ermöglicht, Bilder mithilfe von OpenRouter-Vision-Modellen über eine einfache Schnittstelle zu analysieren.
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityA Model Context Protocol server that provides AI vision capabilities for analyzing UI screenshots, offering tools for screen analysis, file operations, and UI/UX report generation.Last updated -261JavaScriptISC License
- -security-license-qualityA Model Context Protocol server enabling AI assistants to generate images through OpenAI's DALL-E API with full support for all available options and fine-grained control.Last updated -JavaScriptMIT License
- -securityFlicense-qualityA Model Context Protocol server that enables AI assistants to access and control webcams through OpenCV, allowing for image capture and camera setting manipulation.Last updated -Python
- AsecurityAlicenseAqualityMCP OpenVision is a Model Context Protocol (MCP) server that provides image analysis capabilities powered by OpenRouter vision models. It enables AI assistants to analyze images via a simple interface within the MCP ecosystem.Last updated -1PythonMIT License