Smooth Operator Agent Tools

by fstandhartinger
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Enables browser automation through Playwright, allowing navigation, DOM interaction, element selection, and JavaScript execution in Chrome

  • Supports executing JavaScript within Chrome browser contexts for enhanced web page interaction and manipulation

  • Required as a runtime dependency for the server's browser automation capabilities

MCP 서버를 찾고 있다면 여기에서 찾아보세요 .

파이썬 라이브러리를 찾고 있다면, 계속해서 찾아보세요.. ;)

Smooth Operator Agent 도구 - Python 라이브러리

이는 Windows 시스템에서 컴퓨터 사용 에이전트를 개발하는 프로그래머를 위한 최첨단 툴킷인 Smooth Operator Agent Tools에 대한 공식 Python 라이브러리 구현입니다.

개요

Smooth Operator Agent 도구는 Windows Automation Tree 및 Playwright 브라우저 컨트롤과 상호 작용하는 복잡한 작업을 처리하는 동시에 스크린샷과 텍스트 설명을 통해 UI 요소를 식별하는 등의 고급 AI 기능을 제공하는 강력한 툴킷입니다.

이 Python 라이브러리는 Smooth Operator Tools Server API를 감싸는 편리한 래퍼를 제공하므로 이러한 기능을 Python 애플리케이션에 쉽게 통합할 수 있습니다.

모든 기능은 코드로 구현하기 전에 편리한 Windows 사용자 인터페이스를 통해 테스트하고 살펴볼 수 있습니다. Smooth Operator Tools UI 에서 직접 확인해 보세요.

설치

지엑스피1

필수 조건

구글 크롬

Smooth Operator Agent Tools 라이브러리를 사용하려면 브라우저 자동화 기능을 작동시키기 위해 시스템에 Google Chrome(또는 호환되는 Chromium 기반 브라우저)이 설치되어 있어야 합니다.

서버 설치

Smooth Operator 클라이언트 라이브러리에는 애플리케이션 데이터 디렉터리에 설치해야 하는 서버 구성 요소가 포함되어 있습니다. 서버 파일은 라이브러리와 함께 제공되며 처음 사용 시 자동으로 압축 해제됩니다.

첫 번째 실행

라이브러리를 처음 사용하면 자동으로 다음이 수행됩니다.

  1. %APPDATA%\SmoothOperator\AgentToolsServer (또는 OS에서 동일한 디렉토리)를 만듭니다.
  2. 패키지에서 서버 파일을 추출합니다.
  3. 서버 프로세스 시작

Chrome 자동화 기능을 작동하려면 필수 구성 요소 섹션에 설명된 대로 Node.js와 Playwright가 설치되어 있어야 합니다.

애플리케이션 설치 프로그램의 경우

이 라이브러리를 포함하는 애플리케이션 설치 프로그램을 빌드하는 경우, 더 나은 사용자 경험을 위해 애플리케이션 설치 과정에 Node.js와 Playwright 설치 단계를 포함해야 합니다. 필요한 설치 단계는 필수 구성 요소 섹션을 참조하세요.

용법

from smooth_operator_agent_tools import SmoothOperatorClient # Initialize the client with your API key, get it for free at https://screengrasp.com/api.html client = SmoothOperatorClient(api_key="YOUR_API_KEY") # Start the Server - this takes a moment client.start_server() # Take a screenshot screenshot = client.screenshot.take() # Get system overview overview = client.system.get_overview() # Perform a mouse click client.mouse.click(500, 300) # Find and click a UI element by description client.mouse.click_by_description("Submit button") # Type text client.keyboard.type("Hello, world!") # Control Chrome browser client.chrome.open_chrome("https://www.example.com") client.chrome.get_dom() # You can also use the to_json_string() method on many objects # to get a JSON string that can easily be used in a prompt to a LLM # to utilize AI even more for automated decision making

특징

  • 스크린샷 및 분석 : 스크린샷을 캡처하고 UI 요소를 분석합니다.
  • 마우스 제어 : 좌표 또는 AI 기반 요소 감지를 사용한 정확한 마우스 조작
  • 키보드 입력 : 텍스트를 입력하고 키 조합을 보냅니다.
  • Chrome 브라우저 컨트롤 : 탐색, 요소와의 상호 작용, JavaScript 실행
  • Windows 자동화 : Windows 애플리케이션 및 UI 요소와 상호 작용
  • 시스템 운영 : 애플리케이션을 열고 시스템 상태를 관리합니다.

선적 서류 비치

자세한 API 문서는 여기에서 확인하세요.

  • 사용 가이드 : 일반적인 사용 사례에 대한 자세한 예와 설명.
  • 예제 프로젝트 : 다운로드하고 단계별 지침을 따르면 몇 분 안에 첫 번째 자동화를 실행할 수 있습니다.
  • 문서 : 내부적으로 작업을 수행하는 서버의 모든 API 엔드포인트에 대한 자세한 문서입니다.

특허

이 프로젝트는 MIT 라이선스에 따라 라이선스가 부여되었습니다. 자세한 내용은 라이선스 파일을 참조하세요.

-
security - not tested
A
license - permissive license
-
quality - not tested

Windows 자동화 MCP 제공

  • AI 비전(예: 설명별 클릭)
  • Windows UI 자동화 트리 도구
  • Playwright를 통한 Chrome 자동화
  • 마우스 제어
  • 키보드 제어
  • 훨씬 더 많은 도구 (40개 이상)

또한 Python/TypeScript/C# 클라이언트 라이브러리와 Windows 데스크톱 도구가 제공되어 모든 도구를 사용해 볼 수 있습니다.

  1. Smooth Operator Agent Tools - Python Library
    1. Overview
    2. Installation
    3. Prerequisites
    4. Server Installation
    5. Usage
    6. Features
    7. Documentation
    8. License
ID: 0l51c5lnae