Youtube Vision MCP

by minbang930
Verified

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Integrations

  • Leverages the Gemini Vision API to process and analyze YouTube video content, with support for multiple Gemini models that can be configured via environment variables.

  • Analyzes YouTube videos using the Gemini Vision API to provide descriptions, answers to questions, summaries, and extraction of key moments with timestamps.

Servidor MCP de YouTube Vision ( youtube-vision )

Servidor MCP (Protocolo de Contexto de Modelo) que utiliza la API de Google Gemini Vision para interactuar con vídeos de YouTube. Permite a los usuarios obtener descripciones, resúmenes, respuestas a preguntas y extraer momentos clave de los vídeos de YouTube.

Características

  • Analiza vídeos de YouTube utilizando la API de Gemini Vision.
  • Proporciona múltiples herramientas para diferentes interacciones:
    • Descripción general o preguntas y respuestas ( ask_about_youtube_video )
    • Resumen ( summarize_youtube_video )
    • Extracción de momentos clave ( extract_key_moments )
  • Enumera los modelos Gemini disponibles que admiten generateContent .
  • Modelo Gemini configurable a través de variable de entorno.
  • Se comunica a través de stdio (entrada/salida estándar).

Prerrequisitos

Antes de utilizar este servidor, asegúrese de tener lo siguiente:

  • Node.js: Se recomienda la versión 18 o superior. Puede descargarla desde nodejs.org .
  • Clave API de Google Gemini: obtenga su clave API de Google AI Studio o Google Cloud Console.

Instalación y uso

Hay dos formas principales de utilizar este servidor:

Instalación mediante herrería

Para instalar youtube-vision-mcp para Claude Desktop automáticamente a través de Smithery :

npx -y @smithery/cli install @minbang930/youtube-vision-mcp --client claude

Opción 1: Usar npx (recomendado para un uso rápido)

La forma más sencilla de ejecutar este servidor es utilizando npx , que descarga y ejecuta el paquete sin necesidad de una instalación permanente.

Puedes configurarlo dentro del archivo de configuración de tu cliente MCP (Claude, VSCode...):

{ "mcpServers": { "youtube-vision": { "command": "npx", "args": [ "-y", "youtube-vision" ], "env": { "GEMINI_API_KEY": "YOUR_GEMINI_API_KEY", "GEMINI_MODEL_NAME": "gemini-2.0-flash" } } } }

Reemplace "YOUR_GEMINI_API_KEY" con su clave API de Google Gemini real.

Opción 2: Instalación manual (desde la fuente)

Si desea modificar el código o ejecutarlo directamente desde la fuente:

  1. Clonar el repositorio:
    git clone https://github.com/minbang930/Youtube-Vision-MCP.git cd youtube-vision
  2. Instalar dependencias:
    npm install
  3. Construir el proyecto:
    npm run build
  4. Configurar y ejecutar: luego puede ejecutar el código compilado usando node dist/index.js directamente (asegúrese de que GEMINI_API_KEY esté configurado como una variable de entorno) o configurar su cliente MCP para ejecutarlo usando el comando node y la ruta absoluta a dist/index.js , pasando la clave API a través de la configuración env como se muestra en el ejemplo npx.

Configuración

El servidor utiliza las siguientes variables de entorno:

  • GEMINI_API_KEY (Obligatorio): Su clave API de Google Gemini.
  • GEMINI_MODEL_NAME (Opcional): El modelo específico de Gemini que se usará (p. ej., gemini-1.5-flash ). El valor predeterminado es gemini-2.0-flash . Importante: Para uso en producción o comercial, asegúrese de seleccionar una versión del modelo que no esté marcada como "Experimental" o "Vista previa".

Las variables de entorno deben configurarse en la sección env del archivo de configuración de su cliente MCP (por ejemplo, mcp_settings.json ).

Herramientas disponibles

1. ask_about_youtube_video

Responde una pregunta sobre el vídeo o proporciona una descripción general si no se hace ninguna pregunta.

  • Aporte:
    • youtube_url (cadena, obligatoria): la URL del vídeo de YouTube.
    • question (cadena, opcional): La pregunta específica sobre el video. Si se omite, se genera una descripción general.
  • Salida: Texto que contiene la respuesta o descripción.

2. summarize_youtube_video

Genera un resumen de un vídeo de YouTube determinado.

  • Aporte:
    • youtube_url (cadena, obligatoria): la URL del vídeo de YouTube.
    • summary_length (cadena, opcional): Longitud de resumen deseada ('corta', 'media', 'larga'). El valor predeterminado es 'mediana'.
  • Salida: Texto que contiene el resumen del vídeo.

3. extract_key_moments

Extrae momentos clave (marcas de tiempo y descripciones) de un vídeo determinado de YouTube.

  • Aporte:
    • youtube_url (cadena, obligatoria): la URL del vídeo de YouTube.
    • number_of_moments (entero, opcional): Número de momentos clave a extraer. El valor predeterminado es 3.
  • Salida: Texto que describe los momentos clave con marcas de tiempo.

4. list_supported_models

Enumera los modelos Gemini disponibles que admiten el método generateContent (obtenido a través de la API REST).

  • Entrada: Ninguna
  • Salida: Texto que enumera los nombres de modelos admitidos.

Notas importantes

  • Selección de modelos para producción: Al utilizar este servidor con fines comerciales o de producción, asegúrese de que el GEMINI_MODEL_NAME seleccionado sea una versión estable y apta para producción. Según las Condiciones de Servicio de la API de Gemini , los modelos marcados como "Experimental" o "Vista previa" no están permitidos para la implementación en producción.
  • Condiciones del servicio de la API: El uso de este servidor se basa en la API de Google Gemini. Los usuarios son responsables de revisar y cumplir las Condiciones del servicio de las API de Google y las Condiciones adicionales del servicio de la API de Gemini . Tenga en cuenta que las políticas de uso de datos pueden variar entre las versiones gratuita y de pago de la API de Gemini. No comparta información confidencial al usar las versiones gratuitas.
  • Responsabilidad del contenido: No se garantiza la precisión ni la pertinencia del contenido generado mediante la API de Gemini. Sea prudente antes de confiar en el contenido generado o publicarlo.

Licencia

Este proyecto está licenciado bajo la Licencia MIT. Consulte el archivo de LICENCIA para más detalles.

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

Servidor MCP (Protocolo de Contexto de Modelo) que utiliza la API de Google Gemini Vision para interactuar con vídeos de YouTube. Permite a los usuarios obtener descripciones, resúmenes, respuestas a preguntas y extraer momentos clave de los vídeos de YouTube.

  1. Features
    1. Prerequisites
      1. Installation & Usage
        1. Installing via Smithery
        2. Option 1: Using npx (Recommended for quick use)
        3. Option 2: Manual Installation (from Source)
      2. Configuration
        1. Available Tools
          1. 1. ask_about_youtube_video
          2. 2. summarize_youtube_video
          3. 3. extract_key_moments
          4. 4. list_supported_models
        2. Important Notes
          1. License
            ID: cj4f9yubo7