브라우저 사용 MCP 서버
프로젝트 참고 : 이 MCP 서버 구현은 브라우저 사용/웹 UI 기반을 기반으로 합니다. 핵심 브라우저 자동화 로직 및 구성 패턴은 원래 프로젝트에서 가져온 것입니다.
자연어 브라우저 제어를 위한 모델 컨텍스트 프로토콜(MCP)을 구현하는 AI 기반 브라우저 자동화 서버입니다.
특징
- 🧠 MCP 통합 - AI 에이전트 통신을 위한 전체 프로토콜 구현
- 🌐 브라우저 자동화 - 페이지 탐색, 양식 작성 및 요소 상호 작용
- 👁️ 시각적 이해 - 스크린샷 분석 및 비전 기반 상호 작용
- 🔄 상태 지속성 - 작업 간 브라우저 세션 유지
- 🔌 다중 LLM 지원 - OpenAI, Anthropic, Azure, DeepSeek 통합
빠른 시작
필수 조건
- Python 3.11 이상
- uv(빠른 Python 패키지 설치 프로그램)
- 크롬/크로미엄 브라우저
설치
클로드 데스크탑
MacOS의 경우: ~/Library/Application\ Support/Claude/claude_desktop_config.json
Windows의 경우: %APPDATA%/Claude/claude_desktop_config.json
지엑스피1
지역 개발
개발
문제 해결
- 브라우저 충돌 : 시작하기 전에 Chrome 인스턴스를 모두 닫으세요.
- API 오류 : 환경 변수의 API 키가 LLM 공급자와 일치하는지 확인하세요.
- 시각 지원 : 스크린샷 분석을 위해
MCP_USE_VISION=true
설정합니다.
공급자 구성
서버는 환경 변수를 통해 여러 LLM 공급자를 지원합니다. MCP_MODEL_PROVIDER
에 사용 가능한 옵션은 다음과 같습니다.
공급자 | 값 | 필수 환경 변수 |
---|---|---|
인류학적 | anthropic | ANTHROPIC_API_KEY ANTHROPIC_ENDPOINT (선택 사항) |
오픈AI | openai | OPENAI_API_KEY OPENAI_ENDPOINT (선택사항) |
Azure 오픈AI | azure_openai | AZURE_OPENAI_API_KEY AZURE_OPENAI_ENDPOINT |
딥시크 | deepseek | DEEPSEEK_API_KEY DEEPSEEK_ENDPOINT (선택 사항) |
쌍둥이자리 | gemini | GOOGLE_API_KEY |
미스트랄 | mistral | MISTRAL_API_KEY MISTRAL_ENDPOINT (선택 사항) |
올라마 | ollama | OLLAMA_ENDPOINT (선택 사항, 기본값은 localhost:11434) |
오픈라우터 | openrouter | OPENROUTER_API_KEY OPENROUTER_ENDPOINT (선택 사항) |
참고사항:
- 선택 사항으로 표시된 엔드포인트의 경우 지정하지 않으면 기본값이 사용됩니다.
- 온도는
MCP_TEMPERATURE
사용하여 구성할 수 있습니다(기본값: 0.3) - 모델은
MCP_MODEL_NAME
사용하여 지정할 수 있습니다. - Ollama 모델의 경우
num_ctx
및num_predict
와 같은 추가 컨텍스트 설정을 구성할 수 있습니다.
크레딧
이 프로젝트는 MIT 라이선스에 따라 브라우저 사용/웹 UI를 확장합니다. 브라우저 자동화 프레임워크를 개발한 원저자분들께 특별히 감사드립니다.
특허
MIT - 자세한 내용은 라이센스를 참조하세요.
This server cannot be installed
local-only server
The server can only run on the client's local machine because it depends on local resources.
탐색, 양식 작성, 시각적 상호 작용과 같은 작업을 위해 웹 브라우저의 자연어 제어를 가능하게 하는 모델 컨텍스트 프로토콜을 구현하는 AI 기반 브라우저 자동화 서버입니다.
Related MCP Servers
- AsecurityFlicenseAqualityEnables AI agents to interact with web browsers using natural language, featuring automated browsing, form filling, vision-based element detection, and structured JSON responses for systematic browser control.Last updated -146Python
- -securityAlicense-qualityA Model Context Protocol server that enables AI agents to interact with ClickUp workspaces, allowing task creation, management, and workspace organization through natural language commands.Last updated -605MIT License
- -securityFlicense-qualityA web browser automation server that allows AI assistants to control Chrome with persistent state management, enabling complex browsing tasks through asynchronous browser operations.Last updated -1Python
- -security-license-qualityA Model Context Protocol server that enables AI assistants to control Chrome browsers through the Chrome DevTools Protocol, allowing for navigation, clicking, typing, and extracting page information.Last updated -3TypeScript