Servidor de uso del navegador
Un servidor de Protocolo de Contexto de Modelo para la automatización de navegadores mediante scripts de Python. Para usar con Cline.
Características
Operaciones del navegador
screenshot
: captura una captura de pantalla de una página web (página completa o ventana gráfica)get_html
: recupera el contenido HTML de una página webexecute_js
: Ejecutar JavaScript en una página webget_console_logs
: Obtener registros de la consola desde una página web
Todas las operaciones admiten pasos de interacción personalizados (por ejemplo, hacer clic en elementos, desplazarse) después de la carga de la página.
Prerrequisitos
- (Opcional pero recomendado) Instalar Xvfb para la automatización del navegador sin interfaz gráfica:
Xvfb (X Virtual Frame Buffer) crea una pantalla virtual que permite la automatización del navegador sin ser detectado como un bot. Más información sobre Xvfb aquí .
- Instalar Miniconda o Anaconda
- Crear un entorno Conda:
- Configurar la configuración de LLM:
El servidor admite varios proveedores LLM. Puede usar cualquiera de las siguientes claves API:
El servidor usará automáticamente la primera clave API disponible que encuentre. Opcionalmente, puede personalizar el modelo y la URL base de cualquier proveedor mediante las variables de entorno.
Instalación
Instalación mediante herrería
Para instalar Browser Use Server para Claude Desktop automáticamente a través de Smithery :
- Clonar este repositorio en
/home/YOUR_HOME/Documents/Cline/
- Instalar dependencias:
- Construir el servidor:
Configuración de MCP
Agregue la siguiente configuración a la configuración de Cline MCP:
Reemplazar:
YOUR_HOME
con el nombre de su directorio de inicio actualyour_api_key
con sus claves API reales
Uso
Ejecutar el servidor:
El servidor estará disponible en stdio y admitirá las siguientes operaciones:
Captura de pantalla
Parámetros:
- url: La URL de la página web (obligatoria)
- full_page: Si se debe capturar la página completa o solo la ventana gráfica (opcional, valor predeterminado: falso)
- pasos: acciones u oraciones separadas por comas que describen los pasos a seguir después de cargar la página (opcional)
Obtener HTML
Parámetros:
- url: La URL de la página web (obligatoria)
- pasos: acciones u oraciones separadas por comas que describen los pasos a seguir después de cargar la página (opcional)
Ejecutar JavaScript
Parámetros:
- url: La URL de la página web (obligatoria)
- script: código JavaScript a ejecutar (obligatorio)
- pasos: acciones u oraciones separadas por comas que describen los pasos a seguir después de cargar la página (opcional)
Obtener registros de la consola
Parámetros:
- url: La URL de la página web (obligatoria)
- pasos: acciones u oraciones separadas por comas que describen los pasos a seguir después de cargar la página (opcional)
Ejemplo de uso de Cline
A continuación se muestran algunas tareas de ejemplo que puede realizar utilizando el servidor de uso del navegador con Cline:
Modificación de elementos de la página web durante el desarrollo
Para cambiar el color de un encabezado en una página que requiere autenticación:
Esta tarea demuestra:
- Automatización del navegador en varios pasos mediante pasos separados por comas
- Manejo de autenticación
- Aceptación de cookies
- Manipulación del DOM
- Cambios de estilo CSS
El servidor ejecutará estos pasos secuencialmente, manejando cualquier interacción requerida a lo largo del camino.
Configuración
Configuración de LLM
El servidor admite varios proveedores LLM con sus configuraciones predeterminadas:
- GLHF: Utiliza el modelo deepseek-ai/DeepSeek-V3
- Ollama: utiliza el modelo qwen2.5:32b-instruct-q4_K_M con una ventana de contexto de 32k
- Groq: utiliza el modelo deepseek-r1-distill-llama-70b
- OpenAI: utiliza el modelo gpt-4o-mini
- Openrouter: utiliza el modelo deepseek/deepseek-chat
- Github: utiliza el modelo gpt-4o-mini
- DeepSeek: utiliza el modelo de chat deepseek
- Géminis: utiliza el modelo gemini-2.0-flash-exp
Puede anular estos valores predeterminados mediante variables de entorno:
MODEL
: Establezca un nombre de modelo personalizado para cualquier proveedorBASE_URL
: Establezca una URL de punto final de API personalizada (si el proveedor la admite)
Apoyo a la visión
El servidor admite capacidades de visión a través de la variable de entorno USE_VISION:
- Establezca USE_VISION=true para habilitar las capacidades de visión para las operaciones del navegador
- El valor predeterminado es falso para optimizar el rendimiento cuando no se necesita visión
- Útil para tareas que requieren comprensión visual del contenido de la página web.
Soporte para Xvfb
El servidor detecta automáticamente si Xvfb está instalado y:
- Utiliza xvfb-run cuando está disponible, lo que permite una mejor automatización del navegador sin detección de bots.
- Vuelve a la ejecución directa cuando Xvfb no está instalado
- Establece la variable de entorno RUNNING_UNDER_XVFB en consecuencia
Se acabó el tiempo
El tiempo de espera predeterminado es de 5 minutos (300 000 ms). Modifique la constante TIMEOUT en build/index.js
para cambiarlo.
Manejo de errores
El servidor proporciona mensajes de error detallados para:
- Errores en la ejecución de scripts de Python
- Tiempos de espera de funcionamiento del navegador
- Parámetros no válidos
Depuración
Utilice el Inspector MCP para depurar:
Usos
Licencia
Instituto Tecnológico de Massachusetts (MIT)
You must be authenticated.
hybrid server
The server is able to function both locally and remotely, depending on the configuration or use case.
Permite la automatización del navegador mediante scripts de Python, ofreciendo operaciones como tomar capturas de pantalla de páginas web, recuperar contenido HTML y ejecutar JavaScript.
- Características
- Prerrequisitos
- Instalación
- Configuración de MCP
- Uso
- Ejemplo de uso de Cline
- Configuración
- Manejo de errores
- Depuración
- Usos
- Licencia
Related Resources
Related MCP Servers
- AsecurityAlicenseAqualityFacilitates browser automation with custom capabilities and agent-based interactions, integrated through the browser-use library.Last updated -1541PythonMIT License
- AsecurityAlicenseAqualityEnables browser automation with Puppeteer, supporting navigation, form interactions, and connection to active Chrome instances for comprehensive web page interaction.Last updated -84708TypeScriptMIT License
- -securityAlicense-qualityEnables browser automation using the Selenium WebDriver through MCP, supporting browser management, element location, and both basic and advanced user interactions.Last updated -17521JavaScriptMIT License
- -securityAlicense-qualityA browser automation agent that enables Claude to interact with web browsers through the Model Context Protocol, allowing for actions like navigating websites, manipulating elements, and managing browser state.Last updated -2PythonMIT License