🌙 ムーンドリーム MCP サーバー
Moondreamビジョンモデルを活用したアプリケーションに高度な画像解析機能を提供する、強力なモデルコンテキストプロトコル(MCP)サーバーです。ClaudeおよびClineとシームレスに統合され、AIアシスタントと高度なコンピュータービジョンタスクの橋渡しを行います。
これはMoondreamの公式パッケージではありません。一般向けハードウェアで実行できる最高のオープンソースビジョンモデルを開発したmoondream.aiに、この功績を称えます。
✨ 特徴
🖼️画像キャプション: 画像の自然言語による説明を生成します
🔍オブジェクト検出:画像内の特定のオブジェクトを識別して位置を特定します
💭ビジュアル質問応答:画像の内容について質問し、インテリジェントな回答を受け取ります
🚀高性能: 効率的な推論のために量子化された8ビットモデルを使用
🔄自動セットアップ:モデルのダウンロードと環境のセットアップを処理します
🛠️ MCP 統合: シームレスなツール使用のための標準化されたプロトコル
🎯 ユースケース
コンテンツ分析: 画像コンテンツの説明を自動生成
アクセシビリティ: 視覚障害のあるユーザー向けの代替テキストを作成する
データ抽出: 対象を絞った質問を通じて画像から特定の情報を抽出します
オブジェクト検証: 画像内の特定のオブジェクトの存在を確認します
シーン理解:複雑なシーンとその構成要素を分析する
🚀 クイックスタート
前提条件
Node.js v18以上
Python 3.8以上
UV パッケージ マネージャー (存在しない場合は自動的にインストールされます)
インストール
クローンとセットアップ
サーバーを構築する
残りはサーバーが自動的に処理します。
Python仮想環境を作成する
UVが存在しない場合はインストールします
Moondreamモデルのダウンロードとセットアップ
モデルサーバープロセスを管理します
Claude/Clineとの統合
MCP 設定ファイル ( claude_desktop_config.jsonまたはcline_mcp_settings.json ) に追加します。
🛠️ 利用可能なツール
画像を分析する
複数のモードを備えた強力な画像分析ツール:
プロンプトの種類:
"generate caption"- 自然言語による説明を作成する"detect: [object]"- 特定のオブジェクトを検索します(例: 「detect: car」)"[question]"- 画像に関する質問に答えます
例:
🔧 技術的な詳細
建築
サーバーは 2 つのコンポーネントから成るシステムとして動作します。
MCPインターフェース層
プロトコル通信を処理する
ツールインターフェースを管理する
リクエスト/レスポンスを処理する
Moondream モデルサーバー
ビジョンモデルを実行する
画像解析処理
HTTP APIエンドポイントを提供する
モデル情報
Moondream 量子化モデルを使用します:
デフォルト:
moondream-2b-int8.mf.gz効率的な8ビット量子化
Hugging Faceからの自動ダウンロード
モデルサイズ約500MB
パフォーマンス
自動キャッシュによる高速起動
量子化による効率的なメモリ使用
レスポンシブAPIエンドポイント
同時リクエスト処理
🔍 デバッグ
よくある問題と解決策:
モデルのダウンロードに関する問題
# Manual model download wget https://huggingface.co/vikhyatk/moondream2/resolve/main/moondream-0_5b-int4.mf.gzサーバーポートの競合
デフォルトポート: 3475
プロセスを確認するには、
lsof -i :3475を使用します。
Python環境
UVは依存関係を管理する
一時ディレクトリのログを確認する
システムの一時フォルダ内の仮想環境
🤝 貢献する
貢献を歓迎します!興味のある分野:
追加のモデルサポート
パフォーマンスの最適化
新しい分析機能
ドキュメントの改善
📄 ライセンス
[ここにライセンス情報を追加してください]
🙏 謝辞
モデルコンテキストプロトコル(MCP)コミュニティ
貢献者とメンテナー
This server cannot be installed
Moondream ビジョン モデルを統合し、モデル コンテキスト プロトコルを通じてキャプション、オブジェクト検出、視覚的な質問回答などの高度な画像分析を可能にする強力なサーバー。Claude や Cline などの AI アシスタントと互換性があります。
Related Resources
Related MCP Servers
- -security-license-qualityA Model Context Protocol server that provides AI vision capabilities for analyzing UI screenshots, offering tools for screen analysis, file operations, and UI/UX report generation.
- -security-license-qualityA server that provides AI-powered image generation, modification, and processing capabilities through the Model Context Protocol, leveraging Google Gemini models and other image services.Last updated -13MIT License
- -security-license-qualityA Model Context Protocol server that enables AI assistants to access and control webcams through OpenCV, allowing for image capture and camera setting manipulation.Last updated -11
- -security-license-qualityProvides AI-powered visual analysis capabilities for Claude and other MCP-compatible AI assistants, allowing them to capture and analyze screenshots, perform file operations, and generate UI/UX reports.