Smooth Operator Agent Tools

by fstandhartinger
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Enables browser automation through Playwright, allowing navigation, DOM interaction, element selection, and JavaScript execution in Chrome

  • Supports executing JavaScript within Chrome browser contexts for enhanced web page interaction and manipulation

  • Required as a runtime dependency for the server's browser automation capabilities

MCP サーバーを探している場合は、ここ で検索してください

Python ライブラリを探しているなら、どうぞ。 ;)

Smooth Operator エージェントツール - Python ライブラリ

これは、Windows システム上でコンピュータ使用エージェントを開発するプログラマ向けの最先端のツールキットである Smooth Operator Agent Tools の公式 Python ライブラリ実装です。

概要

Smooth Operator エージェント ツールは、Windows オートメーション ツリーおよび Playwright ブラウザー コントロールと対話する複雑なタスクを処理する強力なツールキットであり、スクリーンショットやテキストの説明による UI 要素の識別などの高度な AI 機能も提供します。

この Python ライブラリは、Smooth Operator Tools Server API の便利なラッパーを提供するため、これらの機能を Python アプリケーションに簡単に統合できます。

すべての機能は、コードに実装する前に、便利なWindowsユーザーインターフェースでテストおよび探索できます。Smooth Operator Tools UIでお試しください。

インストール

pip install smooth-operator-agent-tools

前提条件

グーグルクローム

Smooth Operator Agent Tools ライブラリでは、ブラウザ自動化機能が動作するために、システムに Google Chrome (または互換性のある Chromium ベースのブラウザ) がインストールされている必要があります。

サーバーのインストール

Smooth Operatorクライアントライブラリには、アプリケーションデータディレクトリにインストールする必要があるサーバーコンポーネントが含まれています。サーバーファイルはライブラリにパッケージ化されており、初回使用時に自動的に解凍されます。

初回実行

ライブラリを初めて使用する場合、次の処理が自動的に行われます。

  1. %APPDATA%\SmoothOperator\AgentToolsServerディレクトリ(または OS 上の同等のディレクトリ)を作成します。
  2. パッケージからサーバーファイルを抽出する
  3. サーバープロセスを開始する

Chrome の自動化機能が動作するには、前提条件セクションの説明に従って Node.js と Playwright がインストールされていることを確認する必要があります。

アプリケーションインストーラー向け

このライブラリを含むアプリケーションインストーラを作成する場合は、ユーザーエクスペリエンスを向上させるために、アプリケーションのインストールプロセス中にNode.jsとPlaywrightをインストールする手順を含める必要があります。必要なインストール手順については、「前提条件」セクションを参照してください。

使用法

from smooth_operator_agent_tools import SmoothOperatorClient # Initialize the client with your API key, get it for free at https://screengrasp.com/api.html client = SmoothOperatorClient(api_key="YOUR_API_KEY") # Start the Server - this takes a moment client.start_server() # Take a screenshot screenshot = client.screenshot.take() # Get system overview overview = client.system.get_overview() # Perform a mouse click client.mouse.click(500, 300) # Find and click a UI element by description client.mouse.click_by_description("Submit button") # Type text client.keyboard.type("Hello, world!") # Control Chrome browser client.chrome.open_chrome("https://www.example.com") client.chrome.get_dom() # You can also use the to_json_string() method on many objects # to get a JSON string that can easily be used in a prompt to a LLM # to utilize AI even more for automated decision making

特徴

  • スクリーンショットと分析: スクリーンショットをキャプチャし、UI要素を分析します
  • マウスコントロール: 座標またはAIによる要素検出を使用した正確なマウス操作
  • キーボード入力: テキストを入力し、キーの組み合わせを送信します
  • Chrome ブラウザ コントロール: 要素をナビゲートし、操作し、JavaScript を実行します
  • Windows オートメーション: Windows アプリケーションおよび UI 要素と対話する
  • システム操作: アプリケーションを開いてシステム状態を管理する

ドキュメント

詳細な API ドキュメントについては、以下をご覧ください。

  • **使用ガイド:**一般的な使用ケースの詳細な例と説明。
  • **サンプル プロジェクト:**ダウンロードし、ステップ バイ ステップの指示に従って、最初の自動化を数分で実行します。
  • **ドキュメント:**内部で作業を行っているサーバーのすべての API エンドポイントの詳細なドキュメント。

ライセンス

このプロジェクトは MIT ライセンスに基づいてライセンスされています - 詳細については LICENSE ファイルを参照してください。

-
security - not tested
A
license - permissive license
-
quality - not tested

Windows自動化MCPオファリング

  • AIビジョン(例:説明によるクリック)
  • Windows UI オートメーション ツリー ツール
  • Playwright による Chrome オートメーション
  • マウス操作
  • キーボードコントロール
  • さらに多くのツール(40種類以上)

また、すべてのツールを試すための Python/TypeScript/C# クライアント ライブラリと Windows デスクトップ ツールも付属しています。

  1. Smooth Operator Agent Tools - Python Library
    1. Overview
    2. Installation
    3. Prerequisites
    4. Server Installation
    5. Usage
    6. Features
    7. Documentation
    8. License
ID: 0l51c5lnae