Компьютерное управление MCP
MCP-сервер, который обеспечивает возможности управления компьютером, такие как мышь, клавиатура, OCR и т. д. с использованием PyAutoGUI, RapidOCR, ONNXRuntime. Аналогично 'computer-use' от Anthropic. С нулевыми внешними зависимостями.
Протестировано только на Windows. Должно работать на других платформах.

Быстрое использование (настройка MCP с использованием uvx )
Примечание:
ИЛИ установите глобально с помощью pip :
Затем запустите сервер с помощью:
Related MCP server: PyAutoGUI MCP Server
Функции
Управление движениями и щелчками мыши
Введите текст в текущей позиции курсора.
Делайте снимки экрана всего экрана или отдельных окон с возможностью сохранения в каталоге загрузок.
Извлечение текста из снимков экрана с помощью OCR (оптического распознавания символов)
Список и активация окон
Нажмите клавиши клавиатуры
Операции перетаскивания
Доступные инструменты
Управление мышью
click_screen(x: int, y: int): Щелкните по указанным координатам экранаmove_mouse(x: int, y: int): переместить курсор мыши в указанные координатыdrag_mouse(from_x: int, from_y: int, to_x: int, to_y: int, duration: float = 0.5): перетаскивание мыши из одной позиции в другую
Управление с клавиатуры
type_text(text: str): Введите указанный текст в текущей позиции курсораpress_key(key: str): нажать указанную клавишу клавиатуры
Управление экраном и окном
take_screenshot(title_pattern: str = None, use_regex: bool = False, threshold: int = 60, with_ocr_text_and_coords: bool = False, scale_percent_for_ocr: int = 100, save_to_downloads: bool = False): захват экрана или окна с возможностью распознавания текстаget_screen_size(): Получить текущее разрешение экранаlist_windows(): Список всех открытых оконactivate_window(title_pattern: str, use_regex: bool = False, threshold: int = 60): вывести указанное окно на передний план
Разработка
Настройка среды разработки
Проведение тестов
Ссылка на API
Подробную информацию о доступных функциях и классах см. в справочнике API.
Лицензия
Массачусетский технологический институт