Computersteuerung MCP
MCP-Server, der Computersteuerungsfunktionen wie Maus, Tastatur, OCR usw. mithilfe von PyAutoGUI, RapidOCR und ONNXRuntime bereitstellt. Ähnlich wie „computer-use“ von Anthropic. Ohne externe Abhängigkeiten.
Nur unter Windows getestet. Sollte auch auf anderen Plattformen funktionieren.

Schnelle Verwendung (MCP-Setup mit uvx )
Hinweis:
ODER global mit pip installieren:
Führen Sie dann den Server mit folgendem Befehl aus:
Related MCP server: PyAutoGUI MCP Server
Merkmale
Steuern Sie Mausbewegungen und Klicks
Geben Sie Text an der aktuellen Cursorposition ein
Machen Sie Screenshots des gesamten Bildschirms oder bestimmter Fenster mit optionalem Speichern im Download-Verzeichnis
Extrahieren Sie Text aus Screenshots mithilfe von OCR (Optical Character Recognition)
Fenster auflisten und aktivieren
Drücken Sie die Tastaturtasten
Drag-and-Drop-Vorgänge
Verfügbare Tools
Maussteuerung
click_screen(x: int, y: int): Klicken Sie an den angegebenen Bildschirmkoordinatenmove_mouse(x: int, y: int): Bewegen Sie den Mauszeiger zu den angegebenen Koordinatendrag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5): Maus von einer Position zur anderen ziehen
Tastatursteuerung
type_text(text: str): Geben Sie den angegebenen Text an der aktuellen Cursorposition einpress_key(key: str): Drücken Sie eine angegebene Taste auf der Tastatur
Bildschirm- und Fensterverwaltung
take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False): Bildschirm oder Fenster mit optionaler OCR erfassenget_screen_size(): Aktuelle Bildschirmauflösung abrufenlist_windows(): Listet alle geöffneten Fenster aufactivate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60): Bringt das angegebene Fenster in den Vordergrund
Entwicklung
Einrichten der Entwicklungsumgebung
Ausführen von Tests
API-Referenz
Ausführliche Informationen zu den verfügbaren Funktionen und Klassen finden Sie in der API-Referenz .
Lizenz
MIT