local-only server
The server can only run on the client’s local machine because it depends on local resources.
Integrations
Includes support for Google API integration as evidenced by the GOOGLE_API_KEY environment variable in the configuration.
Supports integration with Ollama for local execution of Large Language Models, providing an alternative to cloud-based AI providers.
Integrates with OpenAI's models for language and vision capabilities, allowing the browser automation system to leverage OpenAI's AI models for processing and generating content.
브라우저 사용이 가능한 MCP 서버
브라우저에서 사용할 수 있는 MCP 서버입니다.
개요
이 저장소에는 브라우저 기반 라이브러리 서버가 포함되어 있으며, 이 라이브러리는 AI 에이전트가 자연어를 통해 웹 브라우저와 상호 작용할 수 있도록 하는 강력한 브라우저 자동화 시스템을 제공합니다. 이 서버는 Anthropic의 모델 컨텍스트 프로토콜(MCP)을 기반으로 구축되었으며 브라우저 기반 라이브러리와 완벽하게 통합됩니다.
특징
- 브라우저 컨트롤
- 자연어를 통한 자동화된 브라우저 상호 작용
- 탐색, 양식 작성, 클릭 및 스크롤 기능
- 탭 관리 및 스크린샷 기능
- 쿠키 및 상태 관리
- 에이전트 시스템
- custom_agent.py에서 사용자 정의 에이전트 구현
- 비전 기반 요소 감지
- 작업에 대한 구조화된 JSON 응답
- 메시지 기록 관리 및 요약
- 구성
- API 키 및 설정에 대한 환경 기반 구성
- Chrome 브라우저 설정(디버깅 포트, 지속성)
- 모델 제공자 선택 및 매개변수
종속성
이 프로젝트는 다음과 같은 Python 패키지를 사용합니다.
패키지 | 버전 | 설명 |
---|---|---|
베개 | >=10.1.0 | Python 인터프리터에 이미지 처리 기능을 추가하는 Python 이미징 라이브러리(PIL) 포크입니다. |
브라우저 사용 | ==0.1.19 | AI 에이전트가 자연어를 통해 웹 브라우저와 상호 작용할 수 있도록 지원하는 강력한 브라우저 자동화 시스템입니다. 이 프로젝트의 브라우저 자동화 기능을 구동하는 핵심 라이브러리입니다. |
패스트아피 | >=0.115.6 | Python 3.7 이상 버전으로 표준 Python 타입 힌트를 기반으로 API를 구축하기 위한 최신의 빠른(고성능) 웹 프레임워크입니다. 에이전트 기능을 제공하는 서버를 생성하는 데 사용됩니다. |
패스트MCP | >=0.4.1 | MCP(Model Context Protocol) 서버를 구축하기 위한 FastAPI를 래핑하는 프레임워크입니다. |
강사 | >=1.7.2 | OpenAI 모델을 사용하여 구조화된 출력 프롬프트 및 검증을 위한 라이브러리입니다. 모델 응답에서 구조화된 데이터를 추출할 수 있습니다. |
랭체인 | >=0.3.14 | 대규모 언어 모델(LLM)을 사용하는 애플리케이션을 개발하기 위한 프레임워크입니다. 서로 다른 언어 모델 구성 요소를 연결하고 다양한 API 및 데이터 소스와 상호 작용할 수 있는 도구를 제공합니다. |
langchain-google-genai | >=2.1.1 | Google GenAI 모델에 LangChain을 통합하여 LangChain 프레임워크 내에서 Google의 생성 AI 기능을 사용할 수 있습니다. |
랭체인-오픈AI | >=0.2.14 | LangChain과 OpenAI 모델이 통합되었습니다. LangChain 프레임워크 내에서 OpenAI 모델(예: GPT-4)을 사용할 수 있습니다. 이 프로젝트에서는 OpenAI의 언어 및 비전 모델과 상호 작용하는 데 사용됩니다. |
랭체인-올라마 | >=0.2.2 | Ollama에 Langchain을 통합하여 LLM의 로컬 실행을 지원합니다. |
오픈AI | >=1.59.5 | OpenAI API용 공식 Python 클라이언트 라이브러리입니다. OpenAI 모델과 직접 상호 작용하는 데 사용됩니다(필요한 경우 LangChain 외에도 사용 가능). |
파이썬-dotenv | >=1.0.1 | .env 파일에서 키-값 쌍을 읽어 환경 변수로 설정합니다. 로컬 개발 및 구성 관리를 간소화합니다. |
피단틱 | >=2.10.5 | Python 타입 어노테이션을 사용한 데이터 검증 및 설정 관리. 런타임 시 타입 적용 및 자동 모델 생성 기능을 제공합니다. 에이전트에서 구조화된 데이터 모델을 정의하는 데 필수적입니다. |
파이퍼클립 | >=1.9.0 | 클립보드 기능을 복사하고 붙여넣기 위한 크로스 플랫폼 Python 모듈입니다. |
유비콘 | >=0.22.0 | Python용 ASGI 웹 서버 구현. FastAPI 애플리케이션 제공에 사용됩니다. |
구성 요소
자원
서버는 다음을 사용하여 브라우저 자동화 시스템을 구현합니다.
- 고급 브라우저 제어를 위한 브라우저 사용 라이브러리와의 통합
- 사용자 정의 브라우저 자동화 기능
- 비전 기능을 갖춘 에이전트 기반 상호작용 시스템
- 지속적인 상태 관리
- 사용자 정의 가능한 모델 설정
요구 사항
- 운영 체제(Linux, macOS, Windows; Docker 또는 Microsoft WSL은 테스트하지 않았습니다)
- Python 3.11 이상
- uv(빠른 Python 패키지 설치 프로그램)
- 크롬/크로미엄 브라우저
- 클로드 데스크탑
빠른 시작
클로드 데스크탑
MacOS의 경우: ~/Library/Application\ Support/Claude/claude_desktop_config.json
Windows의 경우: %APPDATA%/Claude/claude_desktop_config.json
Smithery를 통해 설치
Smithery를 통해 Claude Desktop용 Browser Use를 자동으로 설치하려면:
지엑스피1
환경 변수
주요 환경 변수:
개발
설정
- 저장소를 복제합니다.
- 가상 환경을 만들고 활성화하세요.
- 종속성 설치:
- 서버를 시작합니다
디버깅
디버깅을 위해 MCP Inspector를 사용하세요.
검사기는 디버깅 인터페이스의 URL을 표시합니다.
브라우저 동작
서버는 자연어를 통해 다양한 브라우저 동작을 지원합니다.
- 탐색: URL로 이동, 뒤로/앞으로, 새로 고침
- 상호작용: 클릭, 입력, 스크롤, 호버
- 양식: 양식 작성, 제출, 옵션 선택
- 상태: 페이지 콘텐츠 가져오기, 스크린샷 찍기
- 탭: 탭 생성, 닫기, 탭 간 전환
- 비전: 시각적 모양으로 요소 찾기
- 쿠키 및 저장소: 브라우저 상태 관리
보안
Chrome 설정 중 일부에서는 브라우저를 서버에서 제어할 수 있도록 설정되어 있습니다. 이는 보안 위험이므로 주의해서 사용해야 합니다. 이 서버는 프로덕션 환경에서 사용하도록 설계되지 않았습니다.
보안 세부 정보: SECURITY.MD
기여하다
이 프로젝트에 대한 여러분의 참여를 환영합니다. 다음 단계를 따라주세요.
- 이 저장소를 포크하세요.
- 기능 브랜치를 만듭니다:
git checkout -b my-new-feature
. - 변경 사항을 커밋합니다:
git commit -m 'Add some feature'
. - 브랜치에 푸시합니다:
git push origin my-new-feature
. - 풀 리퀘스트를 제출하세요.
주요 변경 사항의 경우, 먼저 이슈를 열어 변경 사항을 논의하세요. 변경 사항이 반영되도록 테스트를 적절히 업데이트해 주세요.
You must be authenticated.
Tools
AI 에이전트가 자연어를 사용하여 웹 브라우저와 상호 작용할 수 있도록 하며, 자동 브라우징, 양식 작성, 비전 기반 요소 감지, 체계적인 브라우저 제어를 위한 구조화된 JSON 응답 기능을 제공합니다.