浏览器使用的 MCP 服务器
项目说明:此 MCP 服务器实现基于浏览器使用/Web UI基础。核心浏览器自动化逻辑和配置模式均改编自原始项目。
人工智能驱动的浏览器自动化服务器,实现模型上下文协议 (MCP),用于自然语言浏览器控制。
特征
- 🧠 MCP 集成- AI 代理通信的完整协议实现
- 🌐浏览器自动化- 页面导航、表单填写和元素交互
- 👁️视觉理解- 屏幕截图分析和基于视觉的交互
- 🔄状态持久化- 在任务之间维护浏览器会话
- 🔌多 LLM 支持- OpenAI、Anthropic、Azure、DeepSeek 集成
快速入门
先决条件
- Python 3.11 或更高版本
- uv(快速 Python 包安装程序)
- Chrome/Chromium浏览器
安装
克劳德桌面
在 MacOS 上: ~/Library/Application\ Support/Claude/claude_desktop_config.json
在 Windows 上: %APPDATA%/Claude/claude_desktop_config.json
本地开发
发展
故障排除
- 浏览器冲突:启动前关闭所有 Chrome 实例。
- API 错误:验证环境变量中的 API 密钥是否与您的 LLM 提供商匹配。
- 视觉支持:确保
MCP_USE_VISION=true
进行屏幕截图分析。
提供程序配置
服务器通过环境变量支持多个 LLM 提供程序。以下是MCP_MODEL_PROVIDER
的可用选项:
提供者 | 价值 | 必需的环境变量 |
---|---|---|
人择 | anthropic | ANTHROPIC_API_KEY ANTHROPIC_ENDPOINT (可选) |
OpenAI | openai | OPENAI_API_KEY OPENAI_ENDPOINT (可选) |
Azure OpenAI | azure_openai | AZURE_OPENAI_API_KEY AZURE_OPENAI_ENDPOINT |
DeepSeek | deepseek | DEEPSEEK_API_KEY DEEPSEEK_ENDPOINT (可选) |
双子座 | gemini | GOOGLE_API_KEY |
米斯特拉尔 | mistral | MISTRAL_API_KEY MISTRAL_ENDPOINT (可选) |
奥拉马 | ollama | OLLAMA_ENDPOINT (可选,默认为 localhost:11434) |
OpenRouter | openrouter | OPENROUTER_API_KEY OPENROUTER_ENDPOINT (可选) |
笔记:
- 对于标记为可选的端点,如果未指定,则将使用默认值
- 可以使用
MCP_TEMPERATURE
配置温度(默认值:0.3) - 可以使用
MCP_MODEL_NAME
指定模型 - 对于 Ollama 模型,可以配置其他上下文设置,例如
num_ctx
和num_predict
致谢
本项目在 MIT 许可证下扩展了browser-use/web-ui 。特别感谢原作者提供的浏览器自动化框架。
执照
MIT——详情请参阅许可证。
Related MCP Servers
- AsecurityFlicenseAqualityEnables AI agents to interact with web browsers using natural language, featuring automated browsing, form filling, vision-based element detection, and structured JSON responses for systematic browser control.Last updated -146Python
- -securityAlicense-qualityA Model Context Protocol server that enables AI agents to interact with ClickUp workspaces, allowing task creation, management, and workspace organization through natural language commands.Last updated -605MIT License
- -securityFlicense-qualityA web browser automation server that allows AI assistants to control Chrome with persistent state management, enabling complex browsing tasks through asynchronous browser operations.Last updated -1Python
- -security-license-qualityA Model Context Protocol server that enables AI assistants to control Chrome browsers through the Chrome DevTools Protocol, allowing for navigation, clicking, typing, and extracting page information.Last updated -3TypeScript