Integrations
Connects to Google's Gemini API using the Google API key for AI-driven browser automation tasks
Provides integration with Ollama's local LLM hosting service, supporting customizable context settings and model parameters for browser automation
Integrates with OpenAI's API for LLM functionality, enabling AI-powered browser control with customizable parameters
浏览器使用的 MCP 服务器
项目说明:此 MCP 服务器实现基于浏览器使用/Web UI基础。核心浏览器自动化逻辑和配置模式均改编自原始项目。
人工智能驱动的浏览器自动化服务器,实现模型上下文协议 (MCP),用于自然语言浏览器控制。
特征
- 🧠 MCP 集成- AI 代理通信的完整协议实现
- 🌐浏览器自动化- 页面导航、表单填写和元素交互
- 👁️视觉理解- 屏幕截图分析和基于视觉的交互
- 🔄状态持久化- 在任务之间维护浏览器会话
- 🔌多 LLM 支持- OpenAI、Anthropic、Azure、DeepSeek 集成
快速入门
先决条件
- Python 3.11 或更高版本
- uv(快速 Python 包安装程序)
- Chrome/Chromium浏览器
安装
克劳德桌面
在 MacOS 上: ~/Library/Application\ Support/Claude/claude_desktop_config.json
在 Windows 上: %APPDATA%/Claude/claude_desktop_config.json
本地开发
发展
故障排除
- 浏览器冲突:启动前关闭所有 Chrome 实例。
- API 错误:验证环境变量中的 API 密钥是否与您的 LLM 提供商匹配。
- 视觉支持:确保
MCP_USE_VISION=true
进行屏幕截图分析。
提供程序配置
服务器通过环境变量支持多个 LLM 提供程序。以下是MCP_MODEL_PROVIDER
的可用选项:
提供者 | 价值 | 必需的环境变量 |
---|---|---|
人择 | anthropic | ANTHROPIC_API_KEY ANTHROPIC_ENDPOINT (可选) |
OpenAI | openai | OPENAI_API_KEY OPENAI_ENDPOINT (可选) |
Azure OpenAI | azure_openai | AZURE_OPENAI_API_KEY AZURE_OPENAI_ENDPOINT |
DeepSeek | deepseek | DEEPSEEK_API_KEY DEEPSEEK_ENDPOINT (可选) |
双子座 | gemini | GOOGLE_API_KEY |
米斯特拉尔 | mistral | MISTRAL_API_KEY MISTRAL_ENDPOINT (可选) |
奥拉马 | ollama | OLLAMA_ENDPOINT (可选,默认为 localhost:11434) |
OpenRouter | openrouter | OPENROUTER_API_KEY OPENROUTER_ENDPOINT (可选) |
笔记:
- 对于标记为可选的端点,如果未指定,则将使用默认值
- 可以使用
MCP_TEMPERATURE
配置温度(默认值:0.3) - 可以使用
MCP_MODEL_NAME
指定模型 - 对于 Ollama 模型,可以配置其他上下文设置,例如
num_ctx
和num_predict
致谢
本项目在 MIT 许可证下扩展了browser-use/web-ui 。特别感谢原作者提供的浏览器自动化框架。
执照
MIT——详情请参阅许可证。
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
人工智能驱动的浏览器自动化服务器,实现模型上下文协议,实现对 Web 浏览器的自然语言控制,以执行导航、表单填写和视觉交互等任务。