Browser Use Server

local-only server

The server can only run on the client’s local machine because it depends on local resources.

Integrations

  • Supports GitHub as an LLM provider through API key integration

  • Allows executing JavaScript code on webpages through the 'execute_js' operation

  • Supports Ollama as an LLM provider through API key integration

Servidor de uso del navegador

Un servidor de Protocolo de Contexto de Modelo para la automatización de navegadores mediante scripts de Python. Para usar con Cline.

Características

Operaciones del navegador

  • screenshot : captura una captura de pantalla de una página web (página completa o ventana gráfica)
  • get_html : recupera el contenido HTML de una página web
  • execute_js : Ejecutar JavaScript en una página web
  • get_console_logs : Obtener registros de la consola desde una página web

Todas las operaciones admiten pasos de interacción personalizados (por ejemplo, hacer clic en elementos, desplazarse) después de la carga de la página.

Prerrequisitos

  1. (Opcional pero recomendado) Instalar Xvfb para la automatización del navegador sin interfaz gráfica:
# Ubuntu/Debian sudo apt-get install xvfb # CentOS/RHEL sudo yum install xorg-x11-server-Xvfb # Arch Linux sudo pacman -S xorg-server-xvfb

Xvfb (X Virtual Frame Buffer) crea una pantalla virtual que permite la automatización del navegador sin ser detectado como un bot. Más información sobre Xvfb aquí .

  1. Instalar Miniconda o Anaconda
  2. Crear un entorno Conda:
conda create -n browser-use python=3.11 conda activate browser-use pip install browser-use
  1. Configurar la configuración de LLM:

El servidor admite varios proveedores LLM. Puede usar cualquiera de las siguientes claves API:

# Required: Set at least one of these API keys export GLHF_API_KEY=your_api_key export GROQ_API_KEY=your_api_key export OPENAI_API_KEY=your_api_key export OPENROUTER_API_KEY=your_api_key export GITHUB_API_KEY=your_api_key export DEEPSEEK_API_KEY=your_api_key export GEMINI_API_KEY=your_api_key export OLLAMA_API_KEY=your_api_key # Optional: Override default configuration export MODEL=your_preferred_model # Override the default model export BASE_URL=your_custom_url # Override the default API endpoint export USE_VISION=false # Enable/disable vision capabilities (default: false)

El servidor usará automáticamente la primera clave API disponible que encuentre. Opcionalmente, puede personalizar el modelo y la URL base de cualquier proveedor mediante las variables de entorno.

Instalación

Instalación mediante herrería

Para instalar Browser Use Server para Claude Desktop automáticamente a través de Smithery :

npx -y @smithery/cli install @ztobs/cline-browser-use-mcp --client claude
  1. Clonar este repositorio
  2. Instalar dependencias:
npm install
  1. Construir el servidor:
npm run build

Configuración de MCP

Agregue la siguiente configuración a la configuración de Cline MCP:

"browser-use": { "command": "node", "args": [ "/home/YOUR_HOME/Documents/Cline/MCP/browser-use-server/build/index.js" ], "env": { // Required: Set at least one API key "GLHF_API_KEY": "your_api_key", "GROQ_API_KEY": "your_api_key", "OPENAI_API_KEY": "your_api_key", "OPENROUTER_API_KEY": "your_api_key", "GITHUB_API_KEY": "your_api_key", "DEEPSEEK_API_KEY": "your_api_key", "GEMINI_API_KEY": "your_api_key", "OLLAMA_API_KEY": "your_api_key", // Optional: Configuration overrides "MODEL": "your_preferred_model", "BASE_URL": "your_custom_url", "USE_VISION": "false" }, "disabled": false, "autoApprove": [] }

Reemplazar:

  • YOUR_HOME con el nombre de su directorio de inicio actual
  • your_api_key con sus claves API reales

Uso

Ejecutar el servidor:

node build/index.js

El servidor estará disponible en stdio y admitirá las siguientes operaciones:

Captura de pantalla

Parámetros:

  • url: La URL de la página web (obligatoria)
  • full_page: Si se debe capturar la página completa o solo la ventana gráfica (opcional, valor predeterminado: falso)
  • pasos: acciones u oraciones separadas por comas que describen los pasos a seguir después de cargar la página (opcional)

Obtener HTML

Parámetros:

  • url: La URL de la página web (obligatoria)
  • pasos: acciones u oraciones separadas por comas que describen los pasos a seguir después de cargar la página (opcional)

Ejecutar JavaScript

Parámetros:

  • url: La URL de la página web (obligatoria)
  • script: código JavaScript a ejecutar (obligatorio)
  • pasos: acciones u oraciones separadas por comas que describen los pasos a seguir después de cargar la página (opcional)

Obtener registros de la consola

Parámetros:

  • url: La URL de la página web (obligatoria)
  • pasos: acciones u oraciones separadas por comas que describen los pasos a seguir después de cargar la página (opcional)

Ejemplo de uso de Cline

A continuación se muestran algunas tareas de ejemplo que puede realizar utilizando el servidor de uso del navegador con Cline:

Modificación de elementos de la página web durante el desarrollo

Para cambiar el color de un encabezado en una página que requiere autenticación:

Change the colour of the headline with the text "Alle Foren im Überblick." to deep blue on https://localhost:3000/foren/ page To check/see the page, use browser-use MCP server to: Open https://localhost:3000/auth, Login with ztobs:Password123, Navigate to https://localhost:3000/foren/, Accept cookies if required hint: execute all browser actions in one command with multiple comma-separated steps

Esta tarea demuestra:

  • Automatización del navegador en varios pasos mediante pasos separados por comas
  • Manejo de autenticación
  • Aceptación de cookies
  • Manipulación del DOM
  • Cambios de estilo CSS

El servidor ejecutará estos pasos secuencialmente, manejando cualquier interacción requerida a lo largo del camino.

Configuración

Configuración de LLM

El servidor admite varios proveedores LLM con sus configuraciones predeterminadas:

  • GLHF: Utiliza el modelo deepseek-ai/DeepSeek-V3
  • Ollama: utiliza el modelo qwen2.5:32b-instruct-q4_K_M con una ventana de contexto de 32k
  • Groq: utiliza el modelo deepseek-r1-distill-llama-70b
  • OpenAI: utiliza el modelo gpt-4o-mini
  • Openrouter: utiliza el modelo deepseek/deepseek-chat
  • Github: utiliza el modelo gpt-4o-mini
  • DeepSeek: utiliza el modelo de chat deepseek
  • Géminis: utiliza el modelo gemini-2.0-flash-exp

Puede anular estos valores predeterminados mediante variables de entorno:

  • MODEL : Establezca un nombre de modelo personalizado para cualquier proveedor
  • BASE_URL : Establezca una URL de punto final de API personalizada (si el proveedor la admite)

Apoyo a la visión

El servidor admite capacidades de visión a través de la variable de entorno USE_VISION:

  • Establezca USE_VISION=true para habilitar las capacidades de visión para las operaciones del navegador
  • El valor predeterminado es falso para optimizar el rendimiento cuando no se necesita visión
  • Útil para tareas que requieren comprensión visual del contenido de la página web.

Soporte para Xvfb

El servidor detecta automáticamente si Xvfb está instalado y:

  • Utiliza xvfb-run cuando está disponible, lo que permite una mejor automatización del navegador sin detección de bots.
  • Vuelve a la ejecución directa cuando Xvfb no está instalado
  • Establece la variable de entorno RUNNING_UNDER_XVFB en consecuencia

Se acabó el tiempo

El tiempo de espera predeterminado es de 5 minutos (300 000 ms). Modifique la constante TIMEOUT en build/index.js para cambiarlo.

Manejo de errores

El servidor proporciona mensajes de error detallados para:

  • Errores en la ejecución de scripts de Python
  • Tiempos de espera de funcionamiento del navegador
  • Parámetros no válidos

Depuración

Utilice el Inspector MCP para depurar:

npm run inspector

Citación

@software{browser_use2024, author = {Müller, Magnus and Žunič, Gregor}, title = {Browser Use: Enable AI to control your browser}, year = {2024}, publisher = {GitHub}, url = {https://github.com/browser-use/browser-use} }

Licencia

Instituto Tecnológico de Massachusetts (MIT)

You must be authenticated.

A
security – no known vulnerabilities
F
license - not found
A
quality - confirmed to work

Permite la automatización del navegador mediante scripts de Python, ofreciendo operaciones como tomar capturas de pantalla de páginas web, recuperar contenido HTML y ejecutar JavaScript.

  1. Features
    1. Browser Operations
  2. Prerequisites
    1. Installation
      1. Installing via Smithery
    2. MCP Configuration
      1. Usage
        1. Screenshot
        2. Get HTML
        3. Execute JavaScript
        4. Get Console Logs
      2. Example Cline Usage
        1. Modifying Web Page Elements during Development
      3. Configuration
        1. LLM Configuration
        2. Vision Support
        3. Xvfb Support
        4. Timeout
      4. Error Handling
        1. Debugging
          1. Citation
            1. License
              ID: 0aqrsbhx3z