컴퓨터 제어 MCP
PyAutoGUI, RapidOCR, ONNXRuntime을 사용하여 마우스, 키보드, OCR 등의 컴퓨터 제어 기능을 제공하는 MCP 서버입니다. Anthropic의 'computer-use'와 유사하며 외부 종속성이 없습니다.
Windows에서만 테스트되었습니다. 다른 플랫폼에서도 작동할 것입니다.

빠른 사용법( uvx 사용한 MCP 설정)
지엑스피1
또는 pip 사용하여 전역적으로 설치합니다.
그런 다음 다음을 사용하여 서버를 실행합니다.
Related MCP server: PyAutoGUI MCP Server
특징
마우스 움직임과 클릭을 제어합니다
현재 커서 위치에 텍스트를 입력하세요
다운로드 디렉토리에 선택적으로 저장하여 전체 화면 또는 특정 창의 스크린샷을 찍을 수 있습니다.
OCR(광학 문자 인식)을 사용하여 스크린샷에서 텍스트 추출
창 나열 및 활성화
키보드 키를 누르세요
드래그 앤 드롭 작업
사용 가능한 도구
마우스 제어
click_screen(x: int, y: int): 지정된 화면 좌표를 클릭합니다.move_mouse(x: int, y: int): 마우스 커서를 지정된 좌표로 이동합니다.drag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5): 마우스를 한 위치에서 다른 위치로 드래그합니다.
키보드 제어
type_text(text: str): 현재 커서 위치에 지정된 텍스트를 입력합니다.press_key(key: str): 지정된 키보드 키를 누릅니다.
화면 및 창 관리
take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False): OCR 옵션을 사용하여 화면이나 창을 캡처합니다.get_screen_size(): 현재 화면 해상도를 가져옵니다.list_windows(): 열려 있는 모든 창을 나열합니다activate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60): 지정된 창을 포그라운드로 가져옵니다.
개발
개발 환경 설정
테스트 실행
API 참조
사용 가능한 함수와 클래스에 대한 자세한 내용은 API 참조를 확인하세요.
특허
MIT