Skip to main content
Glama

Computer Control MCP

by AB498

컴퓨터 제어 MCP

PyAutoGUI, RapidOCR, ONNXRuntime을 사용하여 마우스, 키보드, OCR 등의 컴퓨터 제어 기능을 제공하는 MCP 서버입니다. Anthropic의 'computer-use'와 유사하며 외부 종속성이 없습니다.

  • Windows에서만 테스트되었습니다. 다른 플랫폼에서도 작동할 것입니다.

MCP 컴퓨터 제어 데모

빠른 사용법( uvx 사용한 MCP 설정)

지엑스피1

또는 pip 사용하여 전역적으로 설치합니다.

pip install computer-control-mcp

그런 다음 다음을 사용하여 서버를 실행합니다.

computer-control-mcp # instead of uvx computer-control-mcp, so you can use the latest version, also you can `uv cache clean` to clear the cache and `uvx` again to use latest version.

특징

  • 마우스 움직임과 클릭을 제어합니다
  • 현재 커서 위치에 텍스트를 입력하세요
  • 다운로드 디렉토리에 선택적으로 저장하여 전체 화면 또는 특정 창의 스크린샷을 찍을 수 있습니다.
  • OCR(광학 문자 인식)을 사용하여 스크린샷에서 텍스트 추출
  • 창 나열 및 활성화
  • 키보드 키를 누르세요
  • 드래그 앤 드롭 작업

사용 가능한 도구

마우스 제어

  • click_screen(x: int, y: int) : 지정된 화면 좌표를 클릭합니다.
  • move_mouse(x: int, y: int) : 마우스 커서를 지정된 좌표로 이동합니다.
  • drag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5) : 마우스를 한 위치에서 다른 위치로 드래그합니다.

키보드 제어

  • type_text(text: str) : 현재 커서 위치에 지정된 텍스트를 입력합니다.
  • press_key(key: str) : 지정된 키보드 키를 누릅니다.

화면 및 창 관리

  • take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False) : OCR 옵션을 사용하여 화면이나 창을 캡처합니다.
  • get_screen_size() : 현재 화면 해상도를 가져옵니다.
  • list_windows() : 열려 있는 모든 창을 나열합니다
  • activate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60) : 지정된 창을 포그라운드로 가져옵니다.

개발

개발 환경 설정

# Clone the repository git clone https://github.com/AB498/computer-control-mcp.git cd computer-control-mcp # Install in development mode pip install -e . # Start server python -m computer_control_mcp.core

테스트 실행

python -m pytest

API 참조

사용 가능한 함수와 클래스에 대한 자세한 내용은 API 참조를 확인하세요.

특허

MIT

더 많은 정보나 도움이 필요하시면

-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

통합 API를 통해 마우스 움직임, 키보드 동작, OCR을 통한 스크린샷 캡처, 창 관리 등의 컴퓨터 제어 기능을 제공하는 MCP 서버입니다.

  1. PyAutoGUI, RapidOCR, ONNXRuntime을 사용하여 마우스, 키보드, OCR 등의 컴퓨터 제어 기능을 제공하는 MCP 서버입니다. Anthropic의 'computer-use'와 유사하며 외부 종속성이 없습니다.
    1. 빠른 사용법( uvx 사용한 MCP 설정)
      1. 특징
        1. 사용 가능한 도구
          1. 마우스 제어
          2. 키보드 제어
          3. 화면 및 창 관리
        2. 개발
          1. 개발 환경 설정
          2. 테스트 실행
        3. API 참조
          1. 특허
            1. 더 많은 정보나 도움이 필요하시면

              Related MCP Servers

              • -
                security
                A
                license
                -
                quality
                A Windows control server built using nut.js and Model Context Protocol (MCP), providing programmatic control over Windows system operations including mouse, keyboard, window management, and screen capture functionality.
                Last updated -
                79
                137
                TypeScript
                MIT License
              • -
                security
                A
                license
                -
                quality
                A MCP server that provides browser automation tools, allowing users to navigate websites, take screenshots, click elements, fill forms, and execute JavaScript through Playwright.
                Last updated -
                Python
                Apache 2.0
                • Apple
              • -
                security
                A
                license
                -
                quality
                An MCP server that bridges AI agents with GUI automation capabilities, allowing them to control mouse, keyboard, windows, and take screenshots to interact with desktop applications.
                Last updated -
                Python
                MIT License
                • Apple
                • Linux
              • -
                security
                A
                license
                -
                quality
                Provides automated GUI testing and control capabilities through an MCP server that enables mouse movements, keyboard input, screen captures, and image recognition across Windows, macOS, and Linux.
                Last updated -
                6
                Python
                MIT License
                • Apple
                • Linux

              View all related MCP servers

              MCP directory API

              We provide all the information about MCP servers via our MCP API.

              curl -X GET 'https://glama.ai/api/mcp/v1/servers/AB498/computer-control-mcp'

              If you have feedback or need assistance with the MCP directory API, please join our Discord server