Skip to main content
Glama

Computer Control MCP

by AB498

コンピュータ制御MCP

PyAutoGUI、RapidOCR、ONNXRuntimeを使用して、マウス、キーボード、OCRなどのコンピュータ制御機能を提供するMCPサーバー。Anthropicの「computer-use」に類似。外部依存関係は一切ありません。

  • Windows でのみテストされています。他のプラットフォームでも動作するはずです。

MCP コンピュータ制御デモ

クイック使用法( uvxを使用したMCPセットアップ)

{ "mcpServers": { "computer-control-mcp": { "command": "uvx", "args": ["computer-control-mcp@latest"] } } }

または、 pipを使用してグローバルにインストールします。

pip install computer-control-mcp

次に、次のコマンドでサーバーを実行します。

computer-control-mcp # instead of uvx computer-control-mcp, so you can use the latest version, also you can `uv cache clean` to clear the cache and `uvx` again to use latest version.

特徴

  • マウスの動きとクリックを制御する
  • 現在のカーソル位置にテキストを入力します
  • 画面全体または特定のウィンドウのスクリーンショットを撮り、ダウンロードディレクトリに保存することもできます
  • OCR(光学文字認識)を使用してスクリーンショットからテキストを抽出します
  • ウィンドウの一覧表示とアクティブ化
  • キーボードのキーを押す
  • ドラッグアンドドロップ操作

利用可能なツール

マウスコントロール

  • click_screen(x: int, y: int) : 指定された画面座標をクリックする
  • move_mouse(x: int, y: int) : マウスカーソルを指定された座標に移動する
  • drag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5) : マウスをある位置から別の位置までドラッグします。

キーボードコントロール

  • type_text(text: str) : 現在のカーソル位置に指定されたテキストを入力します。
  • press_key(key: str) : 指定されたキーボードキーを押す

画面とウィンドウの管理

  • take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False) : オプションのOCRを使用して画面またはウィンドウをキャプチャします
  • get_screen_size() : 現在の画面解像度を取得する
  • list_windows() : 開いているウィンドウをすべて一覧表示する
  • activate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60) : 指定されたウィンドウをフォアグラウンドにする

発達

開発環境の設定

# Clone the repository git clone https://github.com/AB498/computer-control-mcp.git cd computer-control-mcp # Install in development mode pip install -e . # Start server python -m computer_control_mcp.core

テストの実行

python -m pytest

APIリファレンス

利用可能な関数とクラスの詳細については、 API リファレンスを参照してください。

ライセンス

マサチューセッツ工科大学

詳細情報やヘルプ

-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

マウスの動き、キーボード操作、OCR によるスクリーンショットのキャプチャ、統合 API によるウィンドウ管理などのコンピューター制御機能を提供する MCP サーバー。

  1. PyAutoGUI、RapidOCR、ONNXRuntimeを使用して、マウス、キーボード、OCRなどのコンピュータ制御機能を提供するMCPサーバー。Anthropicの「computer-use」に類似。外部依存関係は一切ありません。
    1. クイック使用法( uvxを使用したMCPセットアップ)
      1. 特徴
        1. 利用可能なツール
          1. マウスコントロール
          2. キーボードコントロール
          3. 画面とウィンドウの管理
        2. 発達
          1. 開発環境の設定
          2. テストの実行
        3. APIリファレンス
          1. ライセンス
            1. 詳細情報やヘルプ

              Related MCP Servers

              • -
                security
                A
                license
                -
                quality
                An MCP server that bridges AI agents with GUI automation capabilities, allowing them to control mouse, keyboard, windows, and take screenshots to interact with desktop applications.
                Last updated -
                8
                MIT License
                • Apple
                • Linux
              • -
                security
                A
                license
                -
                quality
                Provides automated GUI testing and control capabilities through an MCP server that enables mouse movements, keyboard input, screen captures, and image recognition across Windows, macOS, and Linux.
                Last updated -
                26
                MIT License
                • Apple
                • Linux
              • A
                security
                A
                license
                A
                quality
                An MCP server providing web development tools such as screen capturing capabilities that let AI agents take and work with screenshots of the user's screen.
                Last updated -
                2
                33
                15
                MIT License
                • Apple
              • -
                security
                F
                license
                -
                quality
                An MCP server that allows users to interact with their browser through natural language commands, enabling actions like getting page content as markdown, modifying page styles, and searching browser history.
                Last updated -
                1

              View all related MCP servers

              MCP directory API

              We provide all the information about MCP servers via our MCP API.

              curl -X GET 'https://glama.ai/api/mcp/v1/servers/AB498/computer-control-mcp'

              If you have feedback or need assistance with the MCP directory API, please join our Discord server