Computer Control MCP

by AB498

Integrations

  • Offers a community support channel through Discord for users to get help with the MCP server.

  • Hosts the project repository on GitHub where users can access code, documentation, and demonstration resources.

  • Uses ONNXRuntime for efficient machine learning model execution to power OCR capabilities in the MCP server.

コンピュータ制御MCP

PyAutoGUI、RapidOCR、ONNXRuntimeを使用して、マウス、キーボード、OCRなどのコンピュータ制御機能を提供するMCPサーバー。Anthropicの「computer-use」に類似。外部依存関係は一切ありません。

  • Windows でのみテストされています。他のプラットフォームでも動作するはずです。

クイック使用法( uvxを使用したMCPセットアップ)

{ "mcpServers": { "computer-control-mcp": { "command": "uvx", "args": ["computer-control-mcp@latest"] } } }

または、 pipを使用してグローバルにインストールします。

pip install computer-control-mcp

次に、次のコマンドでサーバーを実行します。

computer-control-mcp # instead of uvx computer-control-mcp, so you can use the latest version, also you can `uv cache clean` to clear the cache and `uvx` again to use latest version.

特徴

  • マウスの動きとクリックを制御する
  • 現在のカーソル位置にテキストを入力します
  • 画面全体または特定のウィンドウのスクリーンショットを撮り、ダウンロードディレクトリに保存することもできます
  • OCR(光学文字認識)を使用してスクリーンショットからテキストを抽出します
  • ウィンドウの一覧表示とアクティブ化
  • キーボードのキーを押す
  • ドラッグアンドドロップ操作

利用可能なツール

マウスコントロール

  • click_screen(x: int, y: int) : 指定された画面座標をクリックする
  • move_mouse(x: int, y: int) : マウスカーソルを指定された座標に移動する
  • drag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5) : マウスをある位置から別の位置までドラッグします。

キーボードコントロール

  • type_text(text: str) : 現在のカーソル位置に指定されたテキストを入力します。
  • press_key(key: str) : 指定されたキーボードキーを押す

画面とウィンドウの管理

  • take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False) : オプションのOCRを使用して画面またはウィンドウをキャプチャします
  • get_screen_size() : 現在の画面解像度を取得する
  • list_windows() : 開いているウィンドウをすべて一覧表示する
  • activate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60) : 指定されたウィンドウをフォアグラウンドにする

発達

開発環境の設定

# Clone the repository git clone https://github.com/AB498/computer-control-mcp.git cd computer-control-mcp # Install in development mode pip install -e . # Start server python -m computer_control_mcp.core

テストの実行

python -m pytest

APIリファレンス

利用可能な関数とクラスの詳細については、 API リファレンスを参照してください。

ライセンス

マサチューセッツ工科大学

詳細情報やヘルプ

-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

マウスの動き、キーボード操作、OCR によるスクリーンショットのキャプチャ、統合 API によるウィンドウ管理などのコンピューター制御機能を提供する MCP サーバー。

  1. PyAutoGUI、RapidOCR、ONNXRuntimeを使用して、マウス、キーボード、OCRなどのコンピュータ制御機能を提供するMCPサーバー。Anthropicの「computer-use」に類似。外部依存関係は一切ありません。
    1. クイック使用法( uvxを使用したMCPセットアップ)
      1. 特徴
        1. 利用可能なツール
          1. マウスコントロール
          2. キーボードコントロール
          3. 画面とウィンドウの管理
        2. 発達
          1. 開発環境の設定
          2. テストの実行
        3. APIリファレンス
          1. ライセンス
            1. 詳細情報やヘルプ

              Related MCP Servers

              • -
                security
                A
                license
                -
                quality
                A Windows control server built using nut.js and Model Context Protocol (MCP), providing programmatic control over Windows system operations including mouse, keyboard, window management, and screen capture functionality.
                Last updated -
                137
                84
                TypeScript
                MIT License
              • -
                security
                A
                license
                -
                quality
                A MCP server that provides browser automation tools, allowing users to navigate websites, take screenshots, click elements, fill forms, and execute JavaScript through Playwright.
                Last updated -
                Python
                Apache 2.0
                • Apple
              • -
                security
                A
                license
                -
                quality
                An MCP server that bridges AI agents with GUI automation capabilities, allowing them to control mouse, keyboard, windows, and take screenshots to interact with desktop applications.
                Last updated -
                Python
                MIT License
                • Apple
                • Linux
              • -
                security
                A
                license
                -
                quality
                Provides automated GUI testing and control capabilities through an MCP server that enables mouse movements, keyboard input, screen captures, and image recognition across Windows, macOS, and Linux.
                Last updated -
                6
                Python
                MIT License
                • Apple
                • Linux

              View all related MCP servers

              ID: ntu33pgw1o