AutoMac MCP
⚠️ ARCHIVIERT
Am 23. März 2026 kündigte Anthropic an, dass Claude nun den Desktop automatisch steuern kann, siehe: Put Claude to work on your computer
In Claude Cowork und Claude Code können Sie Claude nun erlauben, Ihren Computer zur Erledigung von Aufgaben zu nutzen. Wenn Claude keinen Zugriff auf die benötigten Tools hat, wird es auf den Bildschirm zeigen, klicken und navigieren, um die Aufgabe selbst auszuführen. Es kann Dateien öffnen, den Browser verwenden und Entwicklungstools automatisch ausführen – ganz ohne Einrichtung.
Dieses Repository ist nun redundant, da dies jetzt über die eigene App wahrscheinlich auf viel sicherere Weise erreicht werden kann, obwohl es natürlich immer noch mit großer Vorsicht verwendet werden sollte. Ich archiviere dieses Projekt daher. Es könnte als eine Art „Mücke im Bernstein“-Momentaufnahme der Zeit, in der es erstellt wurde, oder als Inspiration für andere Orchestratoren für verschiedene Tool-Frameworks nützlich sein.
Offenlegung: Dieses Projekt wurde unter Verwendung von Claude Code, dem KI-gestützten Coding-Assistenten von Anthropic, als Teil eines experimentellen „Vibe Coding“-Ansatzes für schnelles Prototyping und Entwicklung entwickelt.
AutoMac MCP
Ein lokal auszuführender MCP-Server, der die vollständige Kontrolle über die Benutzeroberfläche Ihres lokalen Betriebssystems bietet.
Derzeit nur für Mac ausgelegt.
⚠️ WARNUNG: Dies ist ein experimentelles Projekt, das einem KI-Assistenten die direkte Kontrolle über die Benutzeroberfläche Ihres Betriebssystems gewährt. Dies ist potenziell gefährlich und sollte nur in kontrollierten Umgebungen zu Forschungszwecken verwendet werden. Das Projekt wurde entwickelt, um zu testen, wie effektiv ein LLM automatisierte UI-Orchestrierungstools nutzen kann, nicht für den produktiven Einsatz.
Experimentell und für die Verwendung mit Claude Desktop gedacht. Nutzen Sie die Bestätigungsaufforderungen der MCP-Server-Integration, um die Sicherheit zu gewährleisten!
📖 In Aktion sehen: Fallstudie zum automatisierten Steam-Spielekauf
Schnellstart
Abhängigkeiten installieren:
uv syncZu Claude Desktop hinzufügen - Gehen Sie zu Einstellungen > Entwickler > Konfiguration bearbeiten und fügen Sie Folgendes zu Ihrer
claude_desktop_config.json-Datei hinzu (verwenden Sie nichtfastmcp install, da dies bei uv-basierten Projekten nicht zuverlässig funktioniert):{ "mcpServers": { "automac-mcp": { "command": "/path/to/automac-mcp/.venv/bin/python", "args": ["/path/to/automac-mcp/automac_mcp.py"] } } }macOS-Berechtigungen erteilen - Aktivieren Sie die Berechtigungen für Bedienungshilfen (Accessibility) und Bildschirmaufnahme für Ihr Terminal in den Systemeinstellungen > Datenschutz & Sicherheit.
Starten Sie Claude Desktop neu und beginnen Sie mit der Automatisierung Ihrer macOS-Benutzeroberfläche!
Für beste Ergebnisse aktivieren Sie „Kontrast erhöhen“ in den Systemeinstellungen > Bedienungshilfen > Anzeige
Berechtigungen & Ersteinrichtung
Um AutoMac MCP zu verwenden, müssen Sie Ihrem Terminal oder Python-Interpreter Berechtigungen für Bedienungshilfen erteilen:
Erste macOS-Berechtigungen erteilen
Gehen Sie zu Systemeinstellungen > Datenschutz & Sicherheit
Fügen Sie Ihr Terminal (Terminal.app, iTerm2, etc.) zu Bedienungshilfen und Bildschirmaufnahme hinzu
Starten Sie Ihr Terminal nach dem Erteilen der Berechtigungen neu
Tool-Berechtigungen für vollständige Automatisierung konfigurieren
⚠️ Für experimentelle vollständige Automatisierung: Wenn Claude zum ersten Mal versucht, ein Tool zu verwenden, sehen Sie Berechtigungsaufforderungen. Um eine nahtlose Automatisierung zu ermöglichen, wählen Sie für jedes Tool „In Zukunft immer erlauben“.
Dies ist riskant – es gewährt der KI die vollständige Kontrolle über Ihre Benutzeroberfläche ohne Bestätigungsaufforderungen. Tun Sie dies nur in einer kontrollierten Umgebung zu Forschungszwecken und überwachen Sie die Aktionen der KI stets genau.
Dieser experimentelle Ansatz testet den aktuellen Stand der Technik bei der LLM-gesteuerten Betriebssystem-Automatisierung.
Einrichtung testen
Führen Sie den MCP-Server aus – er sollte nun Zugriff auf Fensterinformationen und Bildschirmaufnahme haben
Hinweis: Möglicherweise müssen Sie je nach Einrichtung Berechtigungen sowohl für Ihre Terminal-App als auch für den Python-Interpreter separat erteilen.
MCP-Server-Befehle:
Eingabesteuerung:
get_screen_size()- Bildschirmabmessungen abrufenmouse_move(x, y)- Mauszeiger zu Koordinaten bewegenmouse_single_click(x, y)- Einfacher Klick an Koordinatenmouse_double_click(x, y)- Doppelklick an Koordinatentype_text(text)- Den angegebenen Text eingebenscroll(dx, dy)- Mit Pixel-Delta-Werten scrollen
Tastaturkürzel:
keyboard_shortcut_return_key()- Return/Enter-Taste drückenkeyboard_shortcut_escape_key()- Escape-Taste drückenkeyboard_shortcut_tab_key()- Tab-Taste drückenkeyboard_shortcut_space_key()- Leertaste drückenkeyboard_shortcut_delete_key()- Löschen/Rücktaste drückenkeyboard_shortcut_forward_delete_key()- Vorwärts-Löschen-Taste drückenkeyboard_shortcut_arrow_up()- Pfeiltaste nach oben drückenkeyboard_shortcut_arrow_down()- Pfeiltaste nach unten drückenkeyboard_shortcut_arrow_left()- Pfeiltaste nach links drückenkeyboard_shortcut_arrow_right()- Pfeiltaste nach rechts drückenkeyboard_shortcut_select_all()- Alles auswählen (Cmd+A)keyboard_shortcut_copy()- Auswahl kopieren (Cmd+C)keyboard_shortcut_paste()- Aus Zwischenablage einfügen (Cmd+V)keyboard_shortcut_cut()- Auswahl ausschneiden (Cmd+X)keyboard_shortcut_undo()- Letzte Aktion rückgängig machen (Cmd+Z)keyboard_shortcut_redo()- Letzte rückgängig gemachte Aktion wiederholen (Cmd+Shift+Z)keyboard_shortcut_save()- Aktuelles Dokument speichern (Cmd+S)keyboard_shortcut_new()- Neues Dokument erstellen (Cmd+N)keyboard_shortcut_open()- Dokument öffnen (Cmd+O)keyboard_shortcut_find()- Im Dokument suchen (Cmd+F)keyboard_shortcut_close_window()- Aktuelles Fenster schließen (Cmd+W)keyboard_shortcut_quit_app()- Aktuelle Anwendung beenden (Cmd+Q)keyboard_shortcut_minimize_window()- Aktuelles Fenster minimieren (Cmd+M)keyboard_shortcut_hide_app()- Aktuelle Anwendung ausblenden (Cmd+H)keyboard_shortcut_switch_app_forward()- Zur nächsten Anwendung wechseln (Cmd+Tab)keyboard_shortcut_switch_app_backward()- Zur vorherigen Anwendung wechseln (Cmd+Shift+Tab)keyboard_shortcut_spotlight_search()- Spotlight-Suche öffnen (Cmd+Leertaste)keyboard_shortcut_force_quit()- Dialog „Sofort beenden“ öffnen (Cmd+Option+Esc)keyboard_shortcut_refresh()- Aktualisieren/Neu laden (Cmd+R)
UI-Verständnis:
get_screen_layout()- Fenster-/App-Informationen über macOS-Accessibility-APIs abrufenget_screen_text()- Den gesamten Text auf dem Bildschirm mittels OCR mit Positionierung lesenfocus_app(app_name, timeout)- Anwendung in den Vordergrund bringen (mit Timeout-Unterstützung)get_available_apps()- Alle laufenden Anwendungen auflisten
Dienstprogramm:
play_sound_for_user_prompt()- System-Gong abspielen, um den Benutzer zu benachrichtigen
Architektur
AutoMac MCP ist als Model Context Protocol (MCP)-Server aufgebaut, der es KI-Assistenten wie Claude ermöglicht, über eine standardisierte Schnittstelle mit Ihrem lokalen macOS-System zu interagieren.
Was ist MCP?
MCP (Model Context Protocol) ist ein Standard, der es KI-Assistenten ermöglicht, sicher auf externe Ressourcen und Tools zuzugreifen. Ein MCP-Server stellt Funktionen über zwei Haupttypen bereit:
Tools: Aktionen, die die KI ausführen kann (wie Klicken, Tippen, Scrollen)
Ressourcen: Informationen, auf die die KI zugreifen kann (wie Bildschirminhalt, laufende Apps)
Wie AutoMac MCP funktioniert
Claude Desktop ←→ MCP Protocol ←→ AutoMac MCP Server ←→ macOS System APIsClaude Desktop verbindet sich über das MCP-Protokoll mit dem MCP-Server
AutoMac MCP-Server empfängt Anfragen und übersetzt sie in Systemaufrufe
macOS-System-APIs verarbeiten die tatsächlichen UI-Interaktionen und Datenabrufe
Ergebnisse fließen über dieselbe Kette zurück zu Claude
Kernkomponenten
MCP-Server-Framework
Erstellt mit FastMCP für eine vereinfachte MCP-Implementierung
Verarbeitet JSON-RPC-Kommunikation und MCP-Protokollkonformität
Verwendet ausschließlich
@mcp.tool-Dekoratoren – Ressourcen (@mcp.resource) werden vermieden, da Claude Desktop Ressourcen nicht automatisch aufruft, sondern nur Tools
UI-Steuerungsschicht
pyautogui: Plattformübergreifende Eingabesteuerung (Klicken, Tippen, Scrollen)
pyobjc + AppKit: Native macOS-Fensterverwaltung und App-Steuerung
osascript + AppleScript: Systemweite Automatisierung über Subprozessaufrufe
UI-Verständnisschicht
macOS Accessibility APIs: Zugriff auf den nativen UI-Baum für Fenster-/Elementinformationen
easyocr: Optische Zeichenerkennung zum Lesen von Bildschirmtext
Bildschirmaufnahme: Kombiniert mit OCR für visuelles UI-Verständnis
Sicherheitsmodell
AutoMac MCP erfordert explizite macOS-Bedienungshilfen-Berechtigungen und stützt sich auf die Befehlsbestätigungsaufforderungen von Claude Desktop, um unbefugte Aktionen zu verhindern. Alle Systeminteraktionen werden über das MCP-Protokoll vermittelt, was eine kontrollierte Schnittstelle für KI-gesteuerte UI-Automatisierung bietet.
Tipps für Prompts
Für beste Ergebnisse bei der Verwendung von AutoMac MCP mit Claude:
Seien Sie spezifisch bei Apps: Geben Sie immer an, mit welcher Anwendung Sie interagieren möchten. Anstatt „öffne einen Browser“ zu sagen, sagen Sie „fokussiere Chrome“ oder „fokussiere Safari“.
Fordern Sie App-Wechsel an: Bitten Sie Claude nach der Durchführung von Aktionen in anderen Anwendungen immer, zurück zur Claude Desktop-App zu wechseln, da Sie sonst nicht sehen können, ob die Automatisierung funktioniert hat. Zum Beispiel: „Klicke auf den Senden-Button in Safari und wechsle dann zurück zu Claude Desktop.“
Verwenden Sie klare Aktionssequenzen: Unterteilen Sie komplexe Aufgaben in klare Schritte und geben Sie die Reihenfolge an. Dies hilft Claude zu verstehen, was genau Sie erreichen möchten.
Entwicklungsstatus & Roadmap
Abgeschlossene Funktionen
✅ Kern-MCP-Server-Implementierung mit FastMCP
✅ Grundlegende Eingabesteuerung (Klicken, Tippen, Scrollen, Tastaturkürzel)
✅ macOS-UI-Verständnis über Accessibility-APIs
✅ OCR-basiertes Lesen von Bildschirmtext mit Positionierung
✅ Anwendungsfokus und -verwaltung
Geplante Erweiterungen
[ ] Verbesserte UI-Erkennung: Granularere Elementerkennung (Buttons, Textfelder, Menüs)
[ ] Erweiterte Interaktionen: Drag & Drop, Rechtsklick-Kontextmenüs
[ ] Multi-Monitor-Unterstützung: Umgang mit mehreren Displays und Fensterpositionierung
[ ] Verbesserte OCR: Bessere Erkennung von Textregionen und Genauigkeit
[ ] Visuelles Feedback: Screenshot-Anmerkungen und Hervorhebung von UI-Elementen
[ ] Accessibility-Integration: Tiefere Nutzung der macOS-Accessibility-API
Fallstudie: Automatisierter Kauf eines Steam-Spiels
D3: Dies war eine echte Sitzung, in der das System in meinem Namen einen Kauf getätigt hat. Was folgt, ist das Transkript des Gesprächs und Screenshots aus einem Video, das ich aufgenommen habe.

Prompt: Öffne Steam und kaufe ein oder mehrere neue Spiele für mich von meiner Wunschliste, wähle die besten für mich aus. Du hast ein Budget von 5 €. Du hast meine volle Erlaubnis, den Kauf abzuschließen. Vergiss nicht, zurück zur Claude-App zu wechseln, wenn du fertig bist, und über das Ergebnis zu berichten.
Ich helfe dir dabei, Steam zu öffnen und deine Wunschliste anzusehen, um einige tolle Spiele innerhalb deines Budgets von 5 € zu finden. Lass mich damit beginnen, Steam zu öffnen und dann zu deiner Wunschliste zu navigieren.
focus_app

Großartig! Steam ist jetzt geöffnet. Lass mich prüfen, was derzeit auf dem Bildschirm sichtbar ist, um zu sehen, wie ich zu deiner Wunschliste navigieren kann.
get_screen_text
Ich kann sehen, dass Steam geöffnet ist und die Menüleiste sichtbar ist. Ich muss auf deine Wunschliste zugreifen. Ich werde im Menü auf „Account“ klicken, um die Wunschlisten-Option zu finden.
mouse_single_click
Lass mich prüfen, welche Menüoptionen nach dem Klicken auf Account erschienen sind.
get_screen_text
Perfekt! Ich kann „Wunschliste (141)“ im oberen rechten Bereich des Bildschirms sehen. Lass mich darauf klicken, um auf deine Wunschliste zuzugreifen.
mouse_single_click

Lass mich einen Moment warten, bis die Wunschliste geladen ist, und dann prüfen, welche Spiele verfügbar sind.
get_screen_text
Ausgezeichnet! Ich kann sehen, dass deine Wunschliste geladen und nach Preis sortiert ist. Ich kann zwei Spiele sehen, die in dein Budget von 5 € passen:
Heroes of Book & Paper - 4,55 € (mit 20 % Rabatt)
Hylics 2 - 7,39 € (mit 50 % Rabatt) - Das liegt leicht über dem Budget Das erste Spiel „Heroes of Book & Paper“ für 4,55 € passt perfekt in dein Budget von 5 € und sieht nach einer tollen Wahl aus. Es ist ein RPG mit positiven Bewertungen. Lass mich für dieses Spiel auf „In den Warenkorb“ klicken.
mouse_single_click

Lass mich prüfen, ob das Spiel in den Warenkorb gelegt wurde, und sehen, ob es noch andere erschwingliche Spiele gibt, indem ich nach unten scrolle, um weitere Optionen zu sehen.
scroll
get_screen_text
Perfekt! Ich kann sehen, dass „Heroes of Book & Paper“ erfolgreich in deinen Warenkorb gelegt wurde – es gibt jetzt eine „Warenkorb (1)“-Anzeige und ich kann die Nachricht „Ihrem Warenkorb hinzugefügt!“ sowie den Status „Im Warenkorb“ für das Spiel sehen. Das Spiel kostet
This server cannot be installed
Resources
Unclaimed servers have limited discoverability.
Looking for Admin?
If you are the server author, to access and configure the admin panel.
Appeared in Searches
Latest Blog Posts
MCP directory API
We provide all the information about MCP servers via our MCP API.
curl -X GET 'https://glama.ai/api/mcp/v1/servers/digithree/automac-mcp'
If you have feedback or need assistance with the MCP directory API, please join our Discord server