브라우저 사용이 가능한 MCP 서버
브라우저에서 사용할 수 있는 MCP 서버입니다.
개요
이 저장소에는 브라우저 기반 라이브러리 서버가 포함되어 있으며, 이 라이브러리는 AI 에이전트가 자연어를 통해 웹 브라우저와 상호 작용할 수 있도록 하는 강력한 브라우저 자동화 시스템을 제공합니다. 이 서버는 Anthropic의 모델 컨텍스트 프로토콜(MCP)을 기반으로 구축되었으며 브라우저 기반 라이브러리와 완벽하게 통합됩니다.
특징
- 브라우저 컨트롤
- 자연어를 통한 자동화된 브라우저 상호 작용
- 탐색, 양식 작성, 클릭 및 스크롤 기능
- 탭 관리 및 스크린샷 기능
- 쿠키 및 상태 관리
- 에이전트 시스템
- custom_agent.py에서 사용자 정의 에이전트 구현
- 비전 기반 요소 감지
- 작업에 대한 구조화된 JSON 응답
- 메시지 기록 관리 및 요약
- 구성
- API 키 및 설정에 대한 환경 기반 구성
- Chrome 브라우저 설정(디버깅 포트, 지속성)
- 모델 제공자 선택 및 매개변수
종속성
이 프로젝트는 다음과 같은 Python 패키지를 사용합니다.
패키지 | 버전 | 설명 |
---|---|---|
베개 | >=10.1.0 | Python 인터프리터에 이미지 처리 기능을 추가하는 Python 이미징 라이브러리(PIL) 포크입니다. |
브라우저 사용 | ==0.1.19 | AI 에이전트가 자연어를 통해 웹 브라우저와 상호 작용할 수 있도록 지원하는 강력한 브라우저 자동화 시스템입니다. 이 프로젝트의 브라우저 자동화 기능을 구동하는 핵심 라이브러리입니다. |
패스트아피 | >=0.115.6 | Python 3.7 이상 버전으로 표준 Python 타입 힌트를 기반으로 API를 구축하기 위한 최신의 빠른(고성능) 웹 프레임워크입니다. 에이전트 기능을 제공하는 서버를 생성하는 데 사용됩니다. |
패스트MCP | >=0.4.1 | MCP(Model Context Protocol) 서버를 구축하기 위한 FastAPI를 래핑하는 프레임워크입니다. |
강사 | >=1.7.2 | OpenAI 모델을 사용하여 구조화된 출력 프롬프트 및 검증을 위한 라이브러리입니다. 모델 응답에서 구조화된 데이터를 추출할 수 있습니다. |
랭체인 | >=0.3.14 | 대규모 언어 모델(LLM)을 사용하는 애플리케이션을 개발하기 위한 프레임워크입니다. 서로 다른 언어 모델 구성 요소를 연결하고 다양한 API 및 데이터 소스와 상호 작용할 수 있는 도구를 제공합니다. |
langchain-google-genai | >=2.1.1 | Google GenAI 모델에 LangChain을 통합하여 LangChain 프레임워크 내에서 Google의 생성 AI 기능을 사용할 수 있습니다. |
랭체인-오픈AI | >=0.2.14 | LangChain과 OpenAI 모델이 통합되었습니다. LangChain 프레임워크 내에서 OpenAI 모델(예: GPT-4)을 사용할 수 있습니다. 이 프로젝트에서는 OpenAI의 언어 및 비전 모델과 상호 작용하는 데 사용됩니다. |
랭체인-올라마 | >=0.2.2 | Ollama에 Langchain을 통합하여 LLM의 로컬 실행을 지원합니다. |
오픈AI | >=1.59.5 | OpenAI API용 공식 Python 클라이언트 라이브러리입니다. OpenAI 모델과 직접 상호 작용하는 데 사용됩니다(필요한 경우 LangChain 외에도 사용 가능). |
파이썬-dotenv | >=1.0.1 | .env 파일에서 키-값 쌍을 읽어 환경 변수로 설정합니다. 로컬 개발 및 구성 관리를 간소화합니다. |
피단틱 | >=2.10.5 | Python 타입 어노테이션을 사용한 데이터 검증 및 설정 관리. 런타임 시 타입 적용 및 자동 모델 생성 기능을 제공합니다. 에이전트에서 구조화된 데이터 모델을 정의하는 데 필수적입니다. |
파이퍼클립 | >=1.9.0 | 클립보드 기능을 복사하고 붙여넣기 위한 크로스 플랫폼 Python 모듈입니다. |
유비콘 | >=0.22.0 | Python용 ASGI 웹 서버 구현. FastAPI 애플리케이션 제공에 사용됩니다. |
구성 요소
자원
서버는 다음을 사용하여 브라우저 자동화 시스템을 구현합니다.
- 고급 브라우저 제어를 위한 브라우저 사용 라이브러리와의 통합
- 사용자 정의 브라우저 자동화 기능
- 비전 기능을 갖춘 에이전트 기반 상호작용 시스템
- 지속적인 상태 관리
- 사용자 정의 가능한 모델 설정
요구 사항
- 운영 체제(Linux, macOS, Windows; Docker 또는 Microsoft WSL은 테스트하지 않았습니다)
- Python 3.11 이상
- uv(빠른 Python 패키지 설치 프로그램)
- 크롬/크로미엄 브라우저
- 클로드 데스크탑
빠른 시작
클로드 데스크탑
MacOS의 경우: ~/Library/Application\ Support/Claude/claude_desktop_config.json
Windows의 경우: %APPDATA%/Claude/claude_desktop_config.json
Smithery를 통해 설치
Smithery를 통해 Claude Desktop용 Browser Use를 자동으로 설치하려면:
지엑스피1
환경 변수
주요 환경 변수:
개발
설정
- 저장소를 복제합니다.
- 가상 환경을 만들고 활성화하세요.
- 종속성 설치:
- 서버를 시작합니다
디버깅
디버깅을 위해 MCP Inspector를 사용하세요.
검사기는 디버깅 인터페이스의 URL을 표시합니다.
브라우저 동작
서버는 자연어를 통해 다양한 브라우저 동작을 지원합니다.
- 탐색: URL로 이동, 뒤로/앞으로, 새로 고침
- 상호작용: 클릭, 입력, 스크롤, 호버
- 양식: 양식 작성, 제출, 옵션 선택
- 상태: 페이지 콘텐츠 가져오기, 스크린샷 찍기
- 탭: 탭 생성, 닫기, 탭 간 전환
- 비전: 시각적 모양으로 요소 찾기
- 쿠키 및 저장소: 브라우저 상태 관리
보안
Chrome 설정 중 일부에서는 브라우저를 서버에서 제어할 수 있도록 설정되어 있습니다. 이는 보안 위험이므로 주의해서 사용해야 합니다. 이 서버는 프로덕션 환경에서 사용하도록 설계되지 않았습니다.
보안 세부 정보: SECURITY.MD
기여하다
이 프로젝트에 대한 여러분의 참여를 환영합니다. 다음 단계를 따라주세요.
- 이 저장소를 포크하세요.
- 기능 브랜치를 만듭니다:
git checkout -b my-new-feature
. - 변경 사항을 커밋합니다:
git commit -m 'Add some feature'
. - 브랜치에 푸시합니다:
git push origin my-new-feature
. - 풀 리퀘스트를 제출하세요.
주요 변경 사항의 경우, 먼저 이슈를 열어 변경 사항을 논의하세요. 변경 사항이 반영되도록 테스트를 적절히 업데이트해 주세요.
You must be authenticated.
local-only server
The server can only run on the client's local machine because it depends on local resources.
Tools
AI 에이전트가 자연어를 사용하여 웹 브라우저와 상호 작용할 수 있도록 하며, 자동 브라우징, 양식 작성, 비전 기반 요소 감지, 체계적인 브라우저 제어를 위한 구조화된 JSON 응답 기능을 제공합니다.
Related Resources
Related MCP Servers
- -securityFlicense-qualityEnables AI agents to control web browsers via a standardized interface for operations like launching, interacting with, and closing browsers.Last updated -0JavaScript
- -securityAlicense-qualityAI-driven browser automation server that implements the Model Context Protocol to enable natural language control of web browsers for tasks like navigation, form filling, and visual interaction.Last updated -1PythonMIT License
- -securityAlicense-qualityEmpowers AI agents to perform web browsing, automation, and scraping tasks with minimal supervision using natural language instructions and Selenium.Last updated -1PythonApache 2.0
- -securityAlicense-qualityAllows AI agents to control web browser sessions via Selenium WebDriver, enabling web automation tasks like scraping, testing, and form filling through the Model Context Protocol.Last updated -TypeScriptMIT License