Smooth Operator Agent Tools

by fstandhartinger
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Enables browser automation through Playwright, allowing navigation, DOM interaction, element selection, and JavaScript execution in Chrome

  • Supports executing JavaScript within Chrome browser contexts for enhanced web page interaction and manipulation

  • Required as a runtime dependency for the server's browser automation capabilities

如果您正在寻找 MCP 服务器:请在这里找到

如果您正在寻找 Python 库,请继续.. ;)

Smooth Operator Agent 工具 - Python 库

这是 Smooth Operator Agent Tools 的官方 Python 库实现,它是程序员在 Windows 系统上开发计算机使用代理的最先进的工具包。

概述

Smooth Operator Agent Tools 是一个功能强大的工具包,可以处理与 Windows 自动化树和 Playwright 浏览器控件交互的复杂任务,同时提供高级 AI 功能,例如通过屏幕截图和文本描述识别 UI 元素。

这个 Python 库为 Smooth Operator Tools Server API 提供了一个方便的包装器,让您可以轻松地将这些功能集成到您的 Python 应用程序中。

所有功能均可通过便捷的 Windows 用户界面进行测试和探索,然后再通过代码实现。欢迎在Smooth Operator Tools UI上试用。

安装

pip install smooth-operator-agent-tools

先决条件

谷歌浏览器

Smooth Operator Agent Tools 库需要在系统上安装 Google Chrome(或兼容的基于 Chromium 的浏览器)才能运行浏览器自动化功能。

服务器安装

Smooth Operator 客户端库包含一个服务器组件,需要安装在您的应用程序数据目录中。服务器文件与库一起打包,首次使用时会自动解压。

首次执行

首次使用该库时,它将自动:

  1. 创建目录%APPDATA%\SmoothOperator\AgentToolsServer (或您的操作系统上的等效目录)
  2. 从包中提取服务器文件
  3. 启动服务器进程

请注意,要使 Chrome 自动化功能正常工作,您需要确保按照先决条件部分中的说明安装了 Node.js 和 Playwright。

对于应用程序安装程序

如果您正在构建包含此库的应用程序安装程序,则应在应用程序安装过程中包含安装 Node.js 和 Playwright 的步骤,以获得更好的用户体验。有关所需的安装步骤,请参阅“先决条件”部分。

用法

from smooth_operator_agent_tools import SmoothOperatorClient # Initialize the client with your API key, get it for free at https://screengrasp.com/api.html client = SmoothOperatorClient(api_key="YOUR_API_KEY") # Start the Server - this takes a moment client.start_server() # Take a screenshot screenshot = client.screenshot.take() # Get system overview overview = client.system.get_overview() # Perform a mouse click client.mouse.click(500, 300) # Find and click a UI element by description client.mouse.click_by_description("Submit button") # Type text client.keyboard.type("Hello, world!") # Control Chrome browser client.chrome.open_chrome("https://www.example.com") client.chrome.get_dom() # You can also use the to_json_string() method on many objects # to get a JSON string that can easily be used in a prompt to a LLM # to utilize AI even more for automated decision making

特征

  • 截图和分析:捕获截图并分析 UI 元素
  • 鼠标控制:使用坐标或人工智能元素检测进行精确的鼠标操作
  • 键盘输入:输入文本并发送组合键
  • Chrome 浏览器控制:导航、与元素交互以及执行 JavaScript
  • Windows 自动化:与 Windows 应用程序和 UI 元素交互
  • 系统操作:打开应用程序并管理系统状态

文档

详细的API文档请访问:

  • **使用指南**常见用例的详细示例和解释。
  • **示例项目**下载,按照分步说明操作,您的第一个自动化程序将在几分钟内运行。
  • **文档**内部执行工作的服务器的所有 API 端点的详细文档。

执照

该项目根据 MIT 许可证获得许可 - 有关详细信息,请参阅 LICENSE 文件。

-
security - not tested
A
license - permissive license
-
quality - not tested

Windows 自动化 MCP 产品

  • AI 视觉(例如按描述点击)
  • Windows UI 自动化树工具
  • 通过 Playwright 实现 Chrome 自动化
  • 鼠标控制
  • 键盘控制
  • 更多(>40 种工具)

还附带 Python/TypeScript/C# 客户端库和 Windows 桌面工具来尝试所有工具。

  1. Smooth Operator Agent Tools - Python Library
    1. Overview
    2. Installation
    3. Prerequisites
    4. Server Installation
    5. Usage
    6. Features
    7. Documentation
    8. License
ID: 0l51c5lnae