コンピュータ制御MCP
PyAutoGUI、RapidOCR、ONNXRuntimeを使用して、マウス、キーボード、OCRなどのコンピュータ制御機能を提供するMCPサーバー。Anthropicの「computer-use」に類似。外部依存関係は一切ありません。
Windows でのみテストされています。他のプラットフォームでも動作するはずです。

クイック使用法( uvxを使用したMCPセットアップ)
または、 pipを使用してグローバルにインストールします。
次に、次のコマンドでサーバーを実行します。
Related MCP server: PyAutoGUI MCP Server
特徴
マウスの動きとクリックを制御する
現在のカーソル位置にテキストを入力します
画面全体または特定のウィンドウのスクリーンショットを撮り、ダウンロードディレクトリに保存することもできます
OCR(光学文字認識)を使用してスクリーンショットからテキストを抽出します
ウィンドウの一覧表示とアクティブ化
キーボードのキーを押す
ドラッグアンドドロップ操作
利用可能なツール
マウスコントロール
click_screen(x: int, y: int): 指定された画面座標をクリックするmove_mouse(x: int, y: int): マウスカーソルを指定された座標に移動するdrag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5): マウスをある位置から別の位置までドラッグします。
キーボードコントロール
type_text(text: str): 現在のカーソル位置に指定されたテキストを入力します。press_key(key: str): 指定されたキーボードキーを押す
画面とウィンドウの管理
take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False): オプションのOCRを使用して画面またはウィンドウをキャプチャしますget_screen_size(): 現在の画面解像度を取得するlist_windows(): 開いているウィンドウをすべて一覧表示するactivate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60): 指定されたウィンドウをフォアグラウンドにする
発達
開発環境の設定
テストの実行
APIリファレンス
利用可能な関数とクラスの詳細については、 API リファレンスを参照してください。
ライセンス
マサチューセッツ工科大学