Smooth Operator Agent Tools

by fstandhartinger
Verified

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Enables browser automation through Playwright, allowing navigation, DOM interaction, element selection, and JavaScript execution in Chrome

  • Supports executing JavaScript within Chrome browser contexts for enhanced web page interaction and manipulation

  • Required as a runtime dependency for the server's browser automation capabilities

Si estás buscando el servidor MCP: encuéntralo aquí .

Si estás buscando la biblioteca de Python, continúa... ;)

Herramientas del agente de operador suave - Biblioteca de Python

Esta es la implementación oficial de la biblioteca Python para Smooth Operator Agent Tools, un kit de herramientas de última generación para programadores que desarrollan agentes de uso de computadoras en sistemas Windows.

Descripción general

Las herramientas del agente Smooth Operator son un potente conjunto de herramientas que maneja las tareas complejas de interacción con el árbol de automatización de Windows y el control del navegador Playwright, al tiempo que proporciona funciones de inteligencia artificial avanzadas, como la identificación de elementos de la interfaz de usuario a través de capturas de pantalla y descripciones textuales.

Esta biblioteca de Python proporciona un envoltorio conveniente alrededor de la API de Smooth Operator Tools Server, lo que le permite integrar fácilmente estas capacidades en sus aplicaciones de Python.

Todas las funciones se pueden probar y explorar a través de una práctica interfaz de usuario de Windows antes de implementarlas en el código. Pruébelas en la interfaz de usuario de Smooth Operator Tools .

Instalación

pip install smooth-operator-agent-tools

Prerrequisitos

Google Chrome

La biblioteca Smooth Operator Agent Tools requiere que Google Chrome (o un navegador compatible basado en Chromium) esté instalado en el sistema para que las funciones de automatización del navegador funcionen.

Instalación del servidor

La biblioteca cliente Smooth Operator incluye un componente de servidor que debe instalarse en el directorio de datos de la aplicación. Los archivos de servidor se incluyen con la biblioteca y se extraerán automáticamente al usarla por primera vez.

Ejecución por primera vez

Cuando utilice la biblioteca por primera vez, automáticamente:

  1. Cree el directorio %APPDATA%\SmoothOperator\AgentToolsServer (o el equivalente en su sistema operativo)
  2. Extraiga los archivos del servidor del paquete
  3. Iniciar el proceso del servidor

Tenga en cuenta que para que las funciones de automatización de Chrome funcionen, debe asegurarse de que Node.js y Playwright estén instalados como se describe en la sección Requisitos previos.

Para instaladores de aplicaciones

Si está creando un instalador de aplicaciones que incluya esta biblioteca, debería incluir los pasos para instalar Node.js y Playwright durante el proceso de instalación para una mejor experiencia de usuario. Consulte la sección "Requisitos" para conocer los pasos de instalación necesarios.

Uso

from smooth_operator_agent_tools import SmoothOperatorClient # Initialize the client with your API key, get it for free at https://screengrasp.com/api.html client = SmoothOperatorClient(api_key="YOUR_API_KEY") # Start the Server - this takes a moment client.start_server() # Take a screenshot screenshot = client.screenshot.take() # Get system overview overview = client.system.get_overview() # Perform a mouse click client.mouse.click(500, 300) # Find and click a UI element by description client.mouse.click_by_description("Submit button") # Type text client.keyboard.type("Hello, world!") # Control Chrome browser client.chrome.open_chrome("https://www.example.com") client.chrome.get_dom() # You can also use the to_json_string() method on many objects # to get a JSON string that can easily be used in a prompt to a LLM # to utilize AI even more for automated decision making

Características

  • Captura de pantalla y análisis : captura capturas de pantalla y analiza elementos de la interfaz de usuario.
  • Control del mouse : Operaciones precisas con el mouse mediante coordenadas o detección de elementos impulsada por IA
  • Entrada de teclado : escriba texto y envíe combinaciones de teclas
  • Control del navegador Chrome : navegue, interactúe con elementos y ejecute JavaScript
  • Automatización de Windows : interactúe con aplicaciones de Windows y elementos de la interfaz de usuario
  • Operaciones del sistema : abrir aplicaciones y administrar el estado del sistema

Documentación

Para obtener documentación detallada de la API, visita:

  • Guía de uso : ejemplos detallados y explicaciones para casos de uso comunes.
  • Proyecto de ejemplo : Descargue, siga las instrucciones paso a paso y tenga su primera automatización funcionando en minutos.
  • Documentación : Documentación detallada de todos los puntos finales de API del servidor que realiza el trabajo internamente.

Licencia

Este proyecto está licenciado bajo la licencia MIT: consulte el archivo de LICENCIA para obtener más detalles.

-
security - not tested
A
license - permissive license
-
quality - not tested

Oferta de MCP de automatización de Windows

  • Visión de IA (por ejemplo, clic por descripción)
  • Herramientas del árbol de automatización de la interfaz de usuario de Windows
  • Automatización de Chrome a través de Playwright
  • Control del ratón
  • Control del teclado
  • mucho más (>40 herramientas)

También viene con bibliotecas de cliente Python/TypeScript/C# y una herramienta de escritorio de Windows para probar todas las herramientas.

  1. Smooth Operator Agent Tools - Python Library
    1. Overview
    2. Installation
    3. Prerequisites
    4. Server Installation
    5. Usage
    6. Features
    7. Documentation
    8. License
ID: 0l51c5lnae