MCP 비디오 인식 서버
Google의 Gemini AI를 사용하여 이미지, 오디오, 비디오 인식을 위한 도구를 제공하는 MCP(Model Context Protocol) 서버입니다.
특징
이미지 인식 : Google Gemini AI를 사용하여 이미지를 분석하고 설명합니다.
오디오 인식 : Google Gemini AI를 사용하여 오디오 분석 및 필사
비디오 인식 : Google Gemini AI를 사용하여 비디오를 분석하고 설명합니다.
필수 조건
Node.js 18 이상
Google Gemini API 키
설치
수동 설치
저장소를 복제합니다.
지엑스피1
종속성 설치:
npm install프로젝트를 빌드하세요:
npm run build
FLUJO 에 설치하기
서버 추가를 클릭하세요
Github URL을 복사하여 FLUJO에 붙여넣기
분석, 복제, 설치, 빌드 및 저장을 클릭합니다.
구성 파일을 통한 설치
구성 파일을 통해 이 MCP 서버를 Cline이나 다른 MCP 클라이언트와 통합하려면:
Cline 설정을 엽니다.
VS Code에서 파일 -> 환경 설정 -> 설정으로 이동합니다.
"Cline MCP 설정"을 검색하세요
"settings.json에서 편집"을 클릭하세요.
mcpServers개체에 서버 구성을 추가합니다.{ "mcpServers": { "video-recognition": { "command": "node", "args": [ "/path/to/mcp-video-recognition/dist/index.js" ], "disabled": false, "autoApprove": [] } } }/path/to/mcp-video-recognition/dist/index.js프로젝트 디렉터리에 있는index.js파일의 실제 경로로 바꾸세요. Windows에서는 경로에 슬래시(/) 또는 이중 백슬래시(\\)를 사용하세요.설정 파일을 저장하세요. Cline이 자동으로 서버에 연결될 것입니다.
구성
서버는 환경 변수를 사용하여 구성됩니다.
GOOGLE_API_KEY(필수): Google Gemini API 키TRANSPORT_TYPE: 사용할 전송 유형(stdio또는sse, 기본값은stdio)PORT: SSE 전송을 위한 포트 번호(기본값은 3000)LOG_LEVEL: 로깅 수준(verbose,debug,info,warn,error, 기본값은info)
용법
서버 시작
stdio 전송(기본값)
SSE 운송과 함께
도구 사용
서버는 MCP 클라이언트가 호출할 수 있는 세 가지 도구를 제공합니다.
이미지 인식
오디오 인식
비디오 인식
도구 매개변수
모든 도구는 다음 매개변수를 허용합니다.
filepath(필수): 분석할 미디어 파일의 경로prompt(선택 사항): 인식을 위한 사용자 정의 프롬프트(기본값은 "이 콘텐츠를 설명하세요")modelname(선택 사항): 인식에 사용할 Gemini 모델(기본값은 "gemini-2.0-flash")
개발
개발 모드에서 실행
프로젝트 구조
src/index.ts: 진입점src/server.ts: MCP 서버 구현src/tools/: 도구 구현src/services/: 서비스 구현(Gemini API)src/types/: 유형 정의src/utils/: 유틸리티 함수
특허
MIT
remote-capable server
The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.
모델 컨텍스트 프로토콜을 통해 Google의 Gemini AI를 사용하여 이미지, 오디오, 비디오 인식을 위한 도구를 제공합니다.
Related Resources
Related MCP Servers
- -security-license-qualityA server that provides AI-powered image generation, modification, and processing capabilities through the Model Context Protocol, leveraging Google Gemini models and other image services.Last updated -13MIT License
- Asecurity-licenseAqualityA server that provides access to Google Gemini AI capabilities including text generation, image analysis, YouTube video analysis, and web search functionality through the MCP protocol.Last updated -614
- -security-license-qualityA server that allows interaction with Google's Gemini AI through the Gemini CLI tool using the Model Context Protocol, providing a standardized interface for querying Gemini with various options and configurations.Last updated -
- Asecurity-licenseAqualityA Model Context Protocol server that connects to Google AI Studio/Gemini API, enabling content generation with support for various file types, conversation history, and system prompts.Last updated -13917