browser-use MCP server

Integrations

  • Connects to Google's Gemini API using the Google API key for AI-driven browser automation tasks

  • Provides integration with Ollama's local LLM hosting service, supporting customizable context settings and model parameters for browser automation

  • Integrates with OpenAI's API for LLM functionality, enabling AI-powered browser control with customizable parameters

Servidor MCP que utiliza el navegador

Nota del proyecto : Esta implementación del servidor MCP se basa en la base del uso del navegador y la interfaz web . La lógica principal de automatización del navegador y los patrones de configuración se adaptaron del proyecto original.

Servidor de automatización de navegador impulsado por IA que implementa el Protocolo de contexto de modelo (MCP) para el control del navegador en lenguaje natural.

Características

  • 🧠 Integración MCP : implementación completa del protocolo para la comunicación con agentes de IA
  • 🌐 Automatización del navegador : navegación de páginas, llenado de formularios e interacción con elementos
  • 👁️ Comprensión visual : análisis de capturas de pantalla e interacciones basadas en la visión
  • 🔄 Persistencia del estado : mantener las sesiones del navegador entre tareas
  • 🔌 Compatibilidad con múltiples LLM : integración con OpenAI, Anthropic, Azure y DeepSeek

Inicio rápido

Prerrequisitos

  • Python 3.11 o superior
  • uv (instalador rápido de paquetes de Python)
  • Navegador Chrome/Chromium

Instalación

Escritorio de Claude

En MacOS: ~/Library/Application\ Support/Claude/claude_desktop_config.json En Windows: %APPDATA%/Claude/claude_desktop_config.json

"mcpServers": { "browser-use": { "command": "uvx", "args": [ "mcp-server-browser-use", ], "env": { "OPENROUTER_API_KEY": "", "OPENROUTER_ENDPOINT": "https://openrouter.ai/api/v1", "OPENAI_ENDPOINT": "https://api.openai.com/v1", "OPENAI_API_KEY": "", "ANTHROPIC_ENDPOINT": "https://api.anthropic.com", "ANTHROPIC_API_KEY": "", "GOOGLE_API_KEY": "", "AZURE_OPENAI_ENDPOINT": "", "AZURE_OPENAI_API_KEY": "", "DEEPSEEK_ENDPOINT": "https://api.deepseek.com", "DEEPSEEK_API_KEY": "", "MISTRAL_API_KEY": "", "MISTRAL_ENDPOINT": "https://api.mistral.ai/v1", "OLLAMA_ENDPOINT": "http://localhost:11434", "ANONYMIZED_TELEMETRY": "true", "BROWSER_USE_LOGGING_LEVEL": "info", "CHROME_PATH": "", "CHROME_USER_DATA": "", "CHROME_DEBUGGING_PORT": "9222", "CHROME_DEBUGGING_HOST": "localhost", "CHROME_PERSISTENT_SESSION": "false", "BROWSER_HEADLESS": "false", "BROWSER_DISABLE_SECURITY": "false", "BROWSER_WINDOW_WIDTH": "1280", "BROWSER_WINDOW_HEIGHT": "720", "BROWSER_TRACE_PATH": "trace.json", "BROWSER_RECORDING_PATH": "recording.mp4", "RESOLUTION": "1920x1080x24", "RESOLUTION_WIDTH": "1920", "RESOLUTION_HEIGHT": "1080", "VNC_PASSWORD": "youvncpassword", "MCP_MODEL_PROVIDER": "anthropic", "MCP_MODEL_NAME": "claude-3-5-sonnet-20241022", "MCP_TEMPERATURE": "0.3", "MCP_MAX_STEPS": "30", "MCP_USE_VISION": "true", "MCP_MAX_ACTIONS_PER_STEP": "5", "MCP_TOOL_CALL_IN_CONTENT": "true" } }

Desarrollo local

"browser-use": { "command": "uv", "args": [ "--directory", "/path/to/mcp-browser-use", "run", "mcp-server-browser-use" ], "env": { ... } }

Desarrollo

# Install dev dependencies uv sync # Run with debugger npx @modelcontextprotocol/inspector uv --directory . run mcp-server-browser-use

Solución de problemas

  • Conflictos del navegador : cierre todas las instancias de Chrome antes de comenzar.
  • Errores de API : Verifique que las claves de API en las variables de entorno coincidan con su proveedor de LLM.
  • Soporte de visión : asegúrese de que MCP_USE_VISION=true para el análisis de capturas de pantalla.

Configuración del proveedor

El servidor admite múltiples proveedores LLM mediante variables de entorno. Estas son las opciones disponibles para MCP_MODEL_PROVIDER :

ProveedorValorVariables de entorno requeridas
AntrópicoanthropicCLAVE DE API ANTHROPIC_API_KEY PUNTO FINAL ANTHROPIC_ENDPOINT (opcional)
OpenAIopenaiOPENAI_API_KEY OPENAI_ENDPOINT (opcional)
Azure OpenAIazure_openaiCLAVE DE API AZURE_OPENAI_API_KEY AZURE_OPENAI_ENDPOINT AZURE OPENAI
Búsqueda profundadeepseekCLAVE DE API DEEPSEEK_API_KEY PUNTO FINAL DEEPSEEK_ENDPOINT (opcional)
GéminisgeminiGOOGLE_API_KEY
MistralmistralMISTRAL_API_KEY MISTRAL_ENDPOINT (opcional)
OllamaollamaOLLAMA_ENDPOINT (opcional, valor predeterminado localhost:11434)
OpenRouteropenrouterCLAVE DE API DE OPENROUTER PUNTO FINAL OPENROUTER_ENDPOINT OPENROUTER_API_KEY (opcional)

Notas:

  • Para los puntos finales marcados como opcionales, se utilizarán los valores predeterminados si no se especifican
  • La temperatura se puede configurar usando MCP_TEMPERATURE (valor predeterminado: 0,3)
  • El modelo se puede especificar utilizando MCP_MODEL_NAME
  • Para los modelos Ollama, se pueden configurar configuraciones de contexto adicionales como num_ctx y num_predict

Créditos

Este proyecto amplía la interfaz web y el uso del navegador bajo la licencia MIT. Agradecemos especialmente a los autores originales por su marco de automatización del navegador.

Licencia

MIT - Ver LICENCIA para más detalles.

-
security - not tested
A
license - permissive license
-
quality - not tested

local-only server

The server can only run on the client's local machine because it depends on local resources.

Servidor de automatización de navegador impulsado por IA que implementa el Protocolo de contexto de modelo para permitir el control del lenguaje natural de los navegadores web para tareas como navegación, llenado de formularios e interacción visual.

  1. Features
    1. Quick Start
      1. Prerequisites
      2. Installation
      3. Local Development
    2. Development
      1. Troubleshooting
        1. Provider Configuration
          1. Notes:
        2. Credits
          1. License
            ID: 6x4tavwjkj