local-only server
The server can only run on the client’s local machine because it depends on local resources.
Integrations
Includes support for Google API integration as evidenced by the GOOGLE_API_KEY environment variable in the configuration.
Supports integration with Ollama for local execution of Large Language Models, providing an alternative to cloud-based AI providers.
Integrates with OpenAI's models for language and vision capabilities, allowing the browser automation system to leverage OpenAI's AI models for processing and generating content.
Servidor MCP con uso del navegador
Servidor MCP para uso del navegador .
Descripción general
Este repositorio contiene el servidor para la biblioteca de uso del navegador , que proporciona un potente sistema de automatización del navegador que permite a los agentes de IA interactuar con los navegadores web mediante lenguaje natural. El servidor se basa en el Protocolo de Contexto de Modelo (MCP) de Anthropic y se integra perfectamente con la biblioteca de uso del navegador .
Características
- Control del navegador
- Interacciones automatizadas del navegador a través del lenguaje natural
- Capacidades de navegación, llenado de formularios, clics y desplazamiento
- Gestión de pestañas y funcionalidad de captura de pantalla
- Gestión de cookies y estados
- Sistema de agentes
- Implementación de agente personalizado en custom_agent.py
- Detección de elementos basada en visión
- Respuestas JSON estructuradas para acciones
- Gestión y resumen del historial de mensajes
- Configuración
- Configuración basada en el entorno para claves y configuraciones de API
- Configuración del navegador Chrome (puerto de depuración, persistencia)
- Selección del proveedor del modelo y parámetros
Dependencias
Este proyecto se basa en los siguientes paquetes de Python:
Paquete | Versión | Descripción |
---|---|---|
Almohada | >=10.1.0 | Bifurcación de Python Imaging Library (PIL) que agrega capacidades de procesamiento de imágenes a su intérprete de Python. |
uso del navegador | ==0.1.19 | Un potente sistema de automatización de navegadores que permite a los agentes de IA interactuar con los navegadores web mediante lenguaje natural. La biblioteca principal que impulsa las capacidades de automatización de navegadores de este proyecto. |
Fastapi | >=0.115.6 | Framework web moderno, rápido y de alto rendimiento para crear API con Python 3.7+, basado en sugerencias de tipos estándar de Python. Se utiliza para crear el servidor que expone la funcionalidad del agente. |
fastmcp | >=0,4,1 | Un marco que envuelve FastAPI para crear servidores MCP (Protocolo de contexto de modelo). |
instructor | >=1.7.2 | Biblioteca para la generación y validación de resultados estructurados con modelos OpenAI. Permite extraer datos estructurados de las respuestas de los modelos. |
cadena larga | >=0,3,14 | Marco para el desarrollo de aplicaciones con grandes modelos de lenguaje (LLM). Proporciona herramientas para encadenar diferentes componentes de modelos de lenguaje e interactuar con diversas API y fuentes de datos. |
langchain-google-genai | >=2.1.1 | Integración de LangChain con los modelos GenAI de Google, que permite el uso de las capacidades de inteligencia artificial generativa de Google dentro del marco de LangChain. |
langchain-openai | >=0,2,14 | Integración de LangChain con los modelos de OpenAI. Permite usar modelos de OpenAI (como GPT-4) dentro del framework LangChain. Se utiliza en este proyecto para interactuar con los modelos de lenguaje y visión de OpenAI. |
langchain-ollama | >=0,2,2 | Integración de Langchain para Ollama, que permite la ejecución local de LLM. |
openai | >=1,59,5 | Biblioteca cliente oficial de Python para la API de OpenAI. Se utiliza para interactuar directamente con los modelos de OpenAI (si es necesario, además de LangChain). |
python-dotenv | >=1.0.1 | Lee pares clave-valor de un archivo .env y los configura como variables de entorno. Simplifica el desarrollo local y la gestión de la configuración. |
pidantico | >=2.10.5 | Validación de datos y gestión de configuraciones mediante anotaciones de tipos de Python. Permite la aplicación de tipos en tiempo de ejecución y la creación automática de modelos. Esencial para definir modelos de datos estructurados en el agente. |
clip de pyper | >=1.9.0 | Módulo Python multiplataforma para funciones de copiar y pegar el portapapeles. |
uvicornio | >=0,22,0 | Implementación del servidor web ASGI para Python. Se utiliza para la aplicación FastAPI. |
Componentes
Recursos
El servidor implementa un sistema de automatización del navegador con:
- Integración con la biblioteca de uso del navegador para un control avanzado del navegador
- Capacidades de automatización del navegador personalizado
- Sistema de interacción basado en agentes con capacidades de visión
- Gestión de estados persistentes
- Configuraciones de modelo personalizables
Requisitos
- Sistemas operativos (Linux, macOS, Windows; no hemos realizado pruebas con Docker ni Microsoft WSL)
- Python 3.11 o superior
- uv (instalador rápido de paquetes de Python)
- Navegador Chrome/Chromium
- Escritorio de Claude
Inicio rápido
Escritorio de Claude
En MacOS: ~/Library/Application\ Support/Claude/claude_desktop_config.json
En Windows: %APPDATA%/Claude/claude_desktop_config.json
Instalación mediante herrería
Para instalar Browser Use for Claude Desktop automáticamente a través de Smithery :
Variables de entorno
Variables ambientales clave:
Desarrollo
Configuración
- Clonar el repositorio:
- Crear y activar entorno virtual:
- Instalar dependencias:
- Iniciar el servidor
Depuración
Para depurar, utilice el Inspector MCP :
El Inspector mostrará una URL para la interfaz de depuración.
Acciones del navegador
El servidor admite varias acciones del navegador a través del lenguaje natural:
- Navegación: Ir a URL, retroceder/avanzar, actualizar
- Interacción: hacer clic, escribir, desplazarse, pasar el cursor
- Formularios: Complete formularios, envíelos, seleccione opciones
- Estado: Obtener el contenido de la página, tomar capturas de pantalla
- Pestañas: crear, cerrar, cambiar entre pestañas
- Visión: Encuentra elementos por apariencia visual
- Cookies y almacenamiento: Administrar el estado del navegador
Seguridad
Cabe señalar que existen algunas configuraciones de Chrome que permiten que el servidor controle el navegador. Esto representa un riesgo de seguridad y debe usarse con precaución. El servidor no está diseñado para usarse en un entorno de producción.
Detalles de seguridad: SECURITY.MD
Contribuyendo
Agradecemos las contribuciones a este proyecto. Siga estos pasos:
- Bifurcar este repositorio.
- Crea tu rama de características:
git checkout -b my-new-feature
. - Confirme sus cambios:
git commit -m 'Add some feature'
. - Empujar a la rama:
git push origin my-new-feature
. - Enviar una solicitud de extracción.
Para cambios importantes, primero abra una incidencia para comentar qué desea cambiar. Actualice las pruebas según corresponda para reflejar los cambios realizados.
You must be authenticated.
Tools
Permite que los agentes de IA interactúen con los navegadores web utilizando lenguaje natural, presentando navegación automatizada, llenado de formularios, detección de elementos basada en visión y respuestas JSON estructuradas para el control sistemático del navegador.