コンピュータ制御MCP
PyAutoGUI、RapidOCR、ONNXRuntimeを使用して、マウス、キーボード、OCRなどのコンピュータ制御機能を提供するMCPサーバー。Anthropicの「computer-use」に類似。外部依存関係は一切ありません。
Windows でのみテストされています。他のプラットフォームでも動作するはずです。
クイック使用法( uvx
を使用したMCPセットアップ)
または、 pip
を使用してグローバルにインストールします。
次に、次のコマンドでサーバーを実行します。
特徴
マウスの動きとクリックを制御する
現在のカーソル位置にテキストを入力します
画面全体または特定のウィンドウのスクリーンショットを撮り、ダウンロードディレクトリに保存することもできます
OCR(光学文字認識)を使用してスクリーンショットからテキストを抽出します
ウィンドウの一覧表示とアクティブ化
キーボードのキーを押す
ドラッグアンドドロップ操作
利用可能なツール
マウスコントロール
click_screen(x: int, y: int)
: 指定された画面座標をクリックするmove_mouse(x: int, y: int)
: マウスカーソルを指定された座標に移動するdrag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5)
: マウスをある位置から別の位置までドラッグします。
キーボードコントロール
type_text(text: str)
: 現在のカーソル位置に指定されたテキストを入力します。press_key(key: str)
: 指定されたキーボードキーを押す
画面とウィンドウの管理
take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False)
: オプションのOCRを使用して画面またはウィンドウをキャプチャしますget_screen_size()
: 現在の画面解像度を取得するlist_windows()
: 開いているウィンドウをすべて一覧表示するactivate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60)
: 指定されたウィンドウをフォアグラウンドにする
発達
開発環境の設定
テストの実行
APIリファレンス
利用可能な関数とクラスの詳細については、 API リファレンスを参照してください。
ライセンス
マサチューセッツ工科大学
詳細情報やヘルプ
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
マウスの動き、キーボード操作、OCR によるスクリーンショットのキャプチャ、統合 API によるウィンドウ管理などのコンピューター制御機能を提供する MCP サーバー。
Related MCP Servers
- -securityAlicense-qualityAn MCP server that bridges AI agents with GUI automation capabilities, allowing them to control mouse, keyboard, windows, and take screenshots to interact with desktop applications.Last updated -10MIT License
- -securityAlicense-qualityProvides automated GUI testing and control capabilities through an MCP server that enables mouse movements, keyboard input, screen captures, and image recognition across Windows, macOS, and Linux.Last updated -27MIT License
- AsecurityAlicenseAqualityAn MCP server providing web development tools such as screen capturing capabilities that let AI agents take and work with screenshots of the user's screen.Last updated -22115MIT License
- -securityFlicense-qualityAn MCP server that allows users to interact with their browser through natural language commands, enabling actions like getting page content as markdown, modifying page styles, and searching browser history.Last updated -1