local-only server
The server can only run on the client’s local machine because it depends on local resources.
Integrations
Supports GitHub as an LLM provider through API key integration
Allows executing JavaScript code on webpages through the 'execute_js' operation
Supports Ollama as an LLM provider through API key integration
Servidor de uso del navegador
Un servidor de Protocolo de Contexto de Modelo para la automatización de navegadores mediante scripts de Python. Para usar con Cline.
Características
Operaciones del navegador
screenshot
: captura una captura de pantalla de una página web (página completa o ventana gráfica)get_html
: recupera el contenido HTML de una página webexecute_js
: Ejecutar JavaScript en una página webget_console_logs
: Obtener registros de la consola desde una página web
Todas las operaciones admiten pasos de interacción personalizados (por ejemplo, hacer clic en elementos, desplazarse) después de la carga de la página.
Prerrequisitos
- (Opcional pero recomendado) Instalar Xvfb para la automatización del navegador sin interfaz gráfica:
Xvfb (X Virtual Frame Buffer) crea una pantalla virtual que permite la automatización del navegador sin ser detectado como un bot. Más información sobre Xvfb aquí .
- Instalar Miniconda o Anaconda
- Crear un entorno Conda:
- Configurar la configuración de LLM:
El servidor admite varios proveedores LLM. Puede usar cualquiera de las siguientes claves API:
El servidor usará automáticamente la primera clave API disponible que encuentre. Opcionalmente, puede personalizar el modelo y la URL base de cualquier proveedor mediante las variables de entorno.
Instalación
Instalación mediante herrería
Para instalar Browser Use Server para Claude Desktop automáticamente a través de Smithery :
- Clonar este repositorio
- Instalar dependencias:
- Construir el servidor:
Configuración de MCP
Agregue la siguiente configuración a la configuración de Cline MCP:
Reemplazar:
YOUR_HOME
con el nombre de su directorio de inicio actualyour_api_key
con sus claves API reales
Uso
Ejecutar el servidor:
El servidor estará disponible en stdio y admitirá las siguientes operaciones:
Captura de pantalla
Parámetros:
- url: La URL de la página web (obligatoria)
- full_page: Si se debe capturar la página completa o solo la ventana gráfica (opcional, valor predeterminado: falso)
- pasos: acciones u oraciones separadas por comas que describen los pasos a seguir después de cargar la página (opcional)
Obtener HTML
Parámetros:
- url: La URL de la página web (obligatoria)
- pasos: acciones u oraciones separadas por comas que describen los pasos a seguir después de cargar la página (opcional)
Ejecutar JavaScript
Parámetros:
- url: La URL de la página web (obligatoria)
- script: código JavaScript a ejecutar (obligatorio)
- pasos: acciones u oraciones separadas por comas que describen los pasos a seguir después de cargar la página (opcional)
Obtener registros de la consola
Parámetros:
- url: La URL de la página web (obligatoria)
- pasos: acciones u oraciones separadas por comas que describen los pasos a seguir después de cargar la página (opcional)
Ejemplo de uso de Cline
A continuación se muestran algunas tareas de ejemplo que puede realizar utilizando el servidor de uso del navegador con Cline:
Modificación de elementos de la página web durante el desarrollo
Para cambiar el color de un encabezado en una página que requiere autenticación:
Esta tarea demuestra:
- Automatización del navegador en varios pasos mediante pasos separados por comas
- Manejo de autenticación
- Aceptación de cookies
- Manipulación del DOM
- Cambios de estilo CSS
El servidor ejecutará estos pasos secuencialmente, manejando cualquier interacción requerida a lo largo del camino.
Configuración
Configuración de LLM
El servidor admite varios proveedores LLM con sus configuraciones predeterminadas:
- GLHF: Utiliza el modelo deepseek-ai/DeepSeek-V3
- Ollama: utiliza el modelo qwen2.5:32b-instruct-q4_K_M con una ventana de contexto de 32k
- Groq: utiliza el modelo deepseek-r1-distill-llama-70b
- OpenAI: utiliza el modelo gpt-4o-mini
- Openrouter: utiliza el modelo deepseek/deepseek-chat
- Github: utiliza el modelo gpt-4o-mini
- DeepSeek: utiliza el modelo de chat deepseek
- Géminis: utiliza el modelo gemini-2.0-flash-exp
Puede anular estos valores predeterminados mediante variables de entorno:
MODEL
: Establezca un nombre de modelo personalizado para cualquier proveedorBASE_URL
: Establezca una URL de punto final de API personalizada (si el proveedor la admite)
Apoyo a la visión
El servidor admite capacidades de visión a través de la variable de entorno USE_VISION:
- Establezca USE_VISION=true para habilitar las capacidades de visión para las operaciones del navegador
- El valor predeterminado es falso para optimizar el rendimiento cuando no se necesita visión
- Útil para tareas que requieren comprensión visual del contenido de la página web.
Soporte para Xvfb
El servidor detecta automáticamente si Xvfb está instalado y:
- Utiliza xvfb-run cuando está disponible, lo que permite una mejor automatización del navegador sin detección de bots.
- Vuelve a la ejecución directa cuando Xvfb no está instalado
- Establece la variable de entorno RUNNING_UNDER_XVFB en consecuencia
Se acabó el tiempo
El tiempo de espera predeterminado es de 5 minutos (300 000 ms). Modifique la constante TIMEOUT en build/index.js
para cambiarlo.
Manejo de errores
El servidor proporciona mensajes de error detallados para:
- Errores en la ejecución de scripts de Python
- Tiempos de espera de funcionamiento del navegador
- Parámetros no válidos
Depuración
Utilice el Inspector MCP para depurar:
Citación
Licencia
Instituto Tecnológico de Massachusetts (MIT)
You must be authenticated.
Permite la automatización del navegador mediante scripts de Python, ofreciendo operaciones como tomar capturas de pantalla de páginas web, recuperar contenido HTML y ejecutar JavaScript.
- Features
- Prerequisites
- Installation
- MCP Configuration
- Usage
- Example Cline Usage
- Configuration
- Error Handling
- Debugging
- Citation
- License