Skip to main content
Glama

⚠️ ARCHIVIERT

Am 23. März 2026 kündigte Anthropic an, dass Claude nun den Desktop automatisch steuern kann, siehe: Put Claude to work on your computer

In Claude Cowork und Claude Code können Sie Claude nun erlauben, Ihren Computer zur Erledigung von Aufgaben zu nutzen. Wenn Claude keinen Zugriff auf die benötigten Tools hat, wird es auf den Bildschirm zeigen, klicken und navigieren, um die Aufgabe selbst auszuführen. Es kann Dateien öffnen, den Browser verwenden und Entwicklungstools automatisch ausführen – ganz ohne Einrichtung.

Dieses Repository ist nun redundant, da dies jetzt über die eigene App wahrscheinlich auf viel sicherere Weise erreicht werden kann, obwohl es natürlich immer noch mit großer Vorsicht verwendet werden sollte. Ich archiviere dieses Projekt daher. Es könnte als eine Art „Mücke im Bernstein“-Momentaufnahme der Zeit, in der es erstellt wurde, oder als Inspiration für andere Orchestratoren für verschiedene Tool-Frameworks nützlich sein.


Offenlegung: Dieses Projekt wurde unter Verwendung von Claude Code, dem KI-gestützten Coding-Assistenten von Anthropic, als Teil eines experimentellen „Vibe Coding“-Ansatzes für schnelles Prototyping und Entwicklung entwickelt.

AutoMac MCP

Ein lokal auszuführender MCP-Server, der die vollständige Kontrolle über die Benutzeroberfläche Ihres lokalen Betriebssystems bietet.

Derzeit nur für Mac ausgelegt.

⚠️ WARNUNG: Dies ist ein experimentelles Projekt, das einem KI-Assistenten die direkte Kontrolle über die Benutzeroberfläche Ihres Betriebssystems gewährt. Dies ist potenziell gefährlich und sollte nur in kontrollierten Umgebungen zu Forschungszwecken verwendet werden. Das Projekt wurde entwickelt, um zu testen, wie effektiv ein LLM automatisierte UI-Orchestrierungstools nutzen kann, nicht für den produktiven Einsatz.

Experimentell und für die Verwendung mit Claude Desktop gedacht. Nutzen Sie die Bestätigungsaufforderungen der MCP-Server-Integration, um die Sicherheit zu gewährleisten!

📖 In Aktion sehen: Fallstudie zum automatisierten Steam-Spielekauf

Schnellstart

  1. Abhängigkeiten installieren:

    uv sync
  2. Zu Claude Desktop hinzufügen - Gehen Sie zu Einstellungen > Entwickler > Konfiguration bearbeiten und fügen Sie Folgendes zu Ihrer claude_desktop_config.json-Datei hinzu (verwenden Sie nicht fastmcp install, da dies bei uv-basierten Projekten nicht zuverlässig funktioniert):

    {
      "mcpServers": {
        "automac-mcp": {
          "command": "/path/to/automac-mcp/.venv/bin/python",
          "args": ["/path/to/automac-mcp/automac_mcp.py"]
        }
      }
    }
  3. macOS-Berechtigungen erteilen - Aktivieren Sie die Berechtigungen für Bedienungshilfen (Accessibility) und Bildschirmaufnahme für Ihr Terminal in den Systemeinstellungen > Datenschutz & Sicherheit.

  4. Starten Sie Claude Desktop neu und beginnen Sie mit der Automatisierung Ihrer macOS-Benutzeroberfläche!

Für beste Ergebnisse aktivieren Sie „Kontrast erhöhen“ in den Systemeinstellungen > Bedienungshilfen > Anzeige

Berechtigungen & Ersteinrichtung

Um AutoMac MCP zu verwenden, müssen Sie Ihrem Terminal oder Python-Interpreter Berechtigungen für Bedienungshilfen erteilen:

  1. Erste macOS-Berechtigungen erteilen

    • Gehen Sie zu Systemeinstellungen > Datenschutz & Sicherheit

    • Fügen Sie Ihr Terminal (Terminal.app, iTerm2, etc.) zu Bedienungshilfen und Bildschirmaufnahme hinzu

    • Starten Sie Ihr Terminal nach dem Erteilen der Berechtigungen neu

  2. Tool-Berechtigungen für vollständige Automatisierung konfigurieren

    ⚠️ Für experimentelle vollständige Automatisierung: Wenn Claude zum ersten Mal versucht, ein Tool zu verwenden, sehen Sie Berechtigungsaufforderungen. Um eine nahtlose Automatisierung zu ermöglichen, wählen Sie für jedes Tool „In Zukunft immer erlauben“.

    Dies ist riskant – es gewährt der KI die vollständige Kontrolle über Ihre Benutzeroberfläche ohne Bestätigungsaufforderungen. Tun Sie dies nur in einer kontrollierten Umgebung zu Forschungszwecken und überwachen Sie die Aktionen der KI stets genau.

    Dieser experimentelle Ansatz testet den aktuellen Stand der Technik bei der LLM-gesteuerten Betriebssystem-Automatisierung.

  3. Einrichtung testen

    • Führen Sie den MCP-Server aus – er sollte nun Zugriff auf Fensterinformationen und Bildschirmaufnahme haben

Hinweis: Möglicherweise müssen Sie je nach Einrichtung Berechtigungen sowohl für Ihre Terminal-App als auch für den Python-Interpreter separat erteilen.

MCP-Server-Befehle:

Eingabesteuerung:

  • get_screen_size() - Bildschirmabmessungen abrufen

  • mouse_move(x, y) - Mauszeiger zu Koordinaten bewegen

  • mouse_single_click(x, y) - Einfacher Klick an Koordinaten

  • mouse_double_click(x, y) - Doppelklick an Koordinaten

  • type_text(text) - Den angegebenen Text eingeben

  • scroll(dx, dy) - Mit Pixel-Delta-Werten scrollen

Tastaturkürzel:

  • keyboard_shortcut_return_key() - Return/Enter-Taste drücken

  • keyboard_shortcut_escape_key() - Escape-Taste drücken

  • keyboard_shortcut_tab_key() - Tab-Taste drücken

  • keyboard_shortcut_space_key() - Leertaste drücken

  • keyboard_shortcut_delete_key() - Löschen/Rücktaste drücken

  • keyboard_shortcut_forward_delete_key() - Vorwärts-Löschen-Taste drücken

  • keyboard_shortcut_arrow_up() - Pfeiltaste nach oben drücken

  • keyboard_shortcut_arrow_down() - Pfeiltaste nach unten drücken

  • keyboard_shortcut_arrow_left() - Pfeiltaste nach links drücken

  • keyboard_shortcut_arrow_right() - Pfeiltaste nach rechts drücken

  • keyboard_shortcut_select_all() - Alles auswählen (Cmd+A)

  • keyboard_shortcut_copy() - Auswahl kopieren (Cmd+C)

  • keyboard_shortcut_paste() - Aus Zwischenablage einfügen (Cmd+V)

  • keyboard_shortcut_cut() - Auswahl ausschneiden (Cmd+X)

  • keyboard_shortcut_undo() - Letzte Aktion rückgängig machen (Cmd+Z)

  • keyboard_shortcut_redo() - Letzte rückgängig gemachte Aktion wiederholen (Cmd+Shift+Z)

  • keyboard_shortcut_save() - Aktuelles Dokument speichern (Cmd+S)

  • keyboard_shortcut_new() - Neues Dokument erstellen (Cmd+N)

  • keyboard_shortcut_open() - Dokument öffnen (Cmd+O)

  • keyboard_shortcut_find() - Im Dokument suchen (Cmd+F)

  • keyboard_shortcut_close_window() - Aktuelles Fenster schließen (Cmd+W)

  • keyboard_shortcut_quit_app() - Aktuelle Anwendung beenden (Cmd+Q)

  • keyboard_shortcut_minimize_window() - Aktuelles Fenster minimieren (Cmd+M)

  • keyboard_shortcut_hide_app() - Aktuelle Anwendung ausblenden (Cmd+H)

  • keyboard_shortcut_switch_app_forward() - Zur nächsten Anwendung wechseln (Cmd+Tab)

  • keyboard_shortcut_switch_app_backward() - Zur vorherigen Anwendung wechseln (Cmd+Shift+Tab)

  • keyboard_shortcut_spotlight_search() - Spotlight-Suche öffnen (Cmd+Leertaste)

  • keyboard_shortcut_force_quit() - Dialog „Sofort beenden“ öffnen (Cmd+Option+Esc)

  • keyboard_shortcut_refresh() - Aktualisieren/Neu laden (Cmd+R)

UI-Verständnis:

  • get_screen_layout() - Fenster-/App-Informationen über macOS-Accessibility-APIs abrufen

  • get_screen_text() - Den gesamten Text auf dem Bildschirm mittels OCR mit Positionierung lesen

  • focus_app(app_name, timeout) - Anwendung in den Vordergrund bringen (mit Timeout-Unterstützung)

  • get_available_apps() - Alle laufenden Anwendungen auflisten

Dienstprogramm:

  • play_sound_for_user_prompt() - System-Gong abspielen, um den Benutzer zu benachrichtigen

Architektur

AutoMac MCP ist als Model Context Protocol (MCP)-Server aufgebaut, der es KI-Assistenten wie Claude ermöglicht, über eine standardisierte Schnittstelle mit Ihrem lokalen macOS-System zu interagieren.

Was ist MCP?

MCP (Model Context Protocol) ist ein Standard, der es KI-Assistenten ermöglicht, sicher auf externe Ressourcen und Tools zuzugreifen. Ein MCP-Server stellt Funktionen über zwei Haupttypen bereit:

  • Tools: Aktionen, die die KI ausführen kann (wie Klicken, Tippen, Scrollen)

  • Ressourcen: Informationen, auf die die KI zugreifen kann (wie Bildschirminhalt, laufende Apps)

Wie AutoMac MCP funktioniert

Claude Desktop ←→ MCP Protocol ←→ AutoMac MCP Server ←→ macOS System APIs
  1. Claude Desktop verbindet sich über das MCP-Protokoll mit dem MCP-Server

  2. AutoMac MCP-Server empfängt Anfragen und übersetzt sie in Systemaufrufe

  3. macOS-System-APIs verarbeiten die tatsächlichen UI-Interaktionen und Datenabrufe

  4. Ergebnisse fließen über dieselbe Kette zurück zu Claude

Kernkomponenten

MCP-Server-Framework

  • Erstellt mit FastMCP für eine vereinfachte MCP-Implementierung

  • Verarbeitet JSON-RPC-Kommunikation und MCP-Protokollkonformität

  • Verwendet ausschließlich @mcp.tool-Dekoratoren – Ressourcen (@mcp.resource) werden vermieden, da Claude Desktop Ressourcen nicht automatisch aufruft, sondern nur Tools

UI-Steuerungsschicht

  • pyautogui: Plattformübergreifende Eingabesteuerung (Klicken, Tippen, Scrollen)

  • pyobjc + AppKit: Native macOS-Fensterverwaltung und App-Steuerung

  • osascript + AppleScript: Systemweite Automatisierung über Subprozessaufrufe

UI-Verständnisschicht

  • macOS Accessibility APIs: Zugriff auf den nativen UI-Baum für Fenster-/Elementinformationen

  • easyocr: Optische Zeichenerkennung zum Lesen von Bildschirmtext

  • Bildschirmaufnahme: Kombiniert mit OCR für visuelles UI-Verständnis

Sicherheitsmodell

AutoMac MCP erfordert explizite macOS-Bedienungshilfen-Berechtigungen und stützt sich auf die Befehlsbestätigungsaufforderungen von Claude Desktop, um unbefugte Aktionen zu verhindern. Alle Systeminteraktionen werden über das MCP-Protokoll vermittelt, was eine kontrollierte Schnittstelle für KI-gesteuerte UI-Automatisierung bietet.

Tipps für Prompts

Für beste Ergebnisse bei der Verwendung von AutoMac MCP mit Claude:

Seien Sie spezifisch bei Apps: Geben Sie immer an, mit welcher Anwendung Sie interagieren möchten. Anstatt „öffne einen Browser“ zu sagen, sagen Sie „fokussiere Chrome“ oder „fokussiere Safari“.

Fordern Sie App-Wechsel an: Bitten Sie Claude nach der Durchführung von Aktionen in anderen Anwendungen immer, zurück zur Claude Desktop-App zu wechseln, da Sie sonst nicht sehen können, ob die Automatisierung funktioniert hat. Zum Beispiel: „Klicke auf den Senden-Button in Safari und wechsle dann zurück zu Claude Desktop.“

Verwenden Sie klare Aktionssequenzen: Unterteilen Sie komplexe Aufgaben in klare Schritte und geben Sie die Reihenfolge an. Dies hilft Claude zu verstehen, was genau Sie erreichen möchten.

Entwicklungsstatus & Roadmap

Abgeschlossene Funktionen

  • ✅ Kern-MCP-Server-Implementierung mit FastMCP

  • ✅ Grundlegende Eingabesteuerung (Klicken, Tippen, Scrollen, Tastaturkürzel)

  • ✅ macOS-UI-Verständnis über Accessibility-APIs

  • ✅ OCR-basiertes Lesen von Bildschirmtext mit Positionierung

  • ✅ Anwendungsfokus und -verwaltung

Geplante Erweiterungen

  • [ ] Verbesserte UI-Erkennung: Granularere Elementerkennung (Buttons, Textfelder, Menüs)

  • [ ] Erweiterte Interaktionen: Drag & Drop, Rechtsklick-Kontextmenüs

  • [ ] Multi-Monitor-Unterstützung: Umgang mit mehreren Displays und Fensterpositionierung

  • [ ] Verbesserte OCR: Bessere Erkennung von Textregionen und Genauigkeit

  • [ ] Visuelles Feedback: Screenshot-Anmerkungen und Hervorhebung von UI-Elementen

  • [ ] Accessibility-Integration: Tiefere Nutzung der macOS-Accessibility-API

Fallstudie: Automatisierter Kauf eines Steam-Spiels

D3: Dies war eine echte Sitzung, in der das System in meinem Namen einen Kauf getätigt hat. Was folgt, ist das Transkript des Gesprächs und Screenshots aus einem Video, das ich aufgenommen habe.

Prompt: Öffne Steam und kaufe ein oder mehrere neue Spiele für mich von meiner Wunschliste, wähle die besten für mich aus. Du hast ein Budget von 5 €. Du hast meine volle Erlaubnis, den Kauf abzuschließen. Vergiss nicht, zurück zur Claude-App zu wechseln, wenn du fertig bist, und über das Ergebnis zu berichten.

Ich helfe dir dabei, Steam zu öffnen und deine Wunschliste anzusehen, um einige tolle Spiele innerhalb deines Budgets von 5 € zu finden. Lass mich damit beginnen, Steam zu öffnen und dann zu deiner Wunschliste zu navigieren.

focus_app

Großartig! Steam ist jetzt geöffnet. Lass mich prüfen, was derzeit auf dem Bildschirm sichtbar ist, um zu sehen, wie ich zu deiner Wunschliste navigieren kann.

get_screen_text

Ich kann sehen, dass Steam geöffnet ist und die Menüleiste sichtbar ist. Ich muss auf deine Wunschliste zugreifen. Ich werde im Menü auf „Account“ klicken, um die Wunschlisten-Option zu finden.

mouse_single_click

Lass mich prüfen, welche Menüoptionen nach dem Klicken auf Account erschienen sind.

get_screen_text

Perfekt! Ich kann „Wunschliste (141)“ im oberen rechten Bereich des Bildschirms sehen. Lass mich darauf klicken, um auf deine Wunschliste zuzugreifen.

mouse_single_click

Lass mich einen Moment warten, bis die Wunschliste geladen ist, und dann prüfen, welche Spiele verfügbar sind.

get_screen_text

Ausgezeichnet! Ich kann sehen, dass deine Wunschliste geladen und nach Preis sortiert ist. Ich kann zwei Spiele sehen, die in dein Budget von 5 € passen:

  1. Heroes of Book & Paper - 4,55 € (mit 20 % Rabatt)

  2. Hylics 2 - 7,39 € (mit 50 % Rabatt) - Das liegt leicht über dem Budget Das erste Spiel „Heroes of Book & Paper“ für 4,55 € passt perfekt in dein Budget von 5 € und sieht nach einer tollen Wahl aus. Es ist ein RPG mit positiven Bewertungen. Lass mich für dieses Spiel auf „In den Warenkorb“ klicken.

mouse_single_click

Lass mich prüfen, ob das Spiel in den Warenkorb gelegt wurde, und sehen, ob es noch andere erschwingliche Spiele gibt, indem ich nach unten scrolle, um weitere Optionen zu sehen.

scroll

get_screen_text

Perfekt! Ich kann sehen, dass „Heroes of Book & Paper“ erfolgreich in deinen Warenkorb gelegt wurde – es gibt jetzt eine „Warenkorb (1)“-Anzeige und ich kann die Nachricht „Ihrem Warenkorb hinzugefügt!“ sowie den Status „Im Warenkorb“ für das Spiel sehen. Das Spiel kostet

-
security - not tested
A
license - permissive license
-
quality - not tested

Resources

Unclaimed servers have limited discoverability.

Looking for Admin?

If you are the server author, to access and configure the admin panel.

Latest Blog Posts

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/digithree/automac-mcp'

If you have feedback or need assistance with the MCP directory API, please join our Discord server