Skip to main content
Glama

Youtube Vision MCP

Servidor MCP de YouTube Vision ( youtube-vision )

Servidor MCP (Protocolo de Contexto de Modelo) que utiliza la API de Google Gemini Vision para interactuar con vídeos de YouTube. Permite a los usuarios obtener descripciones, resúmenes, respuestas a preguntas y extraer momentos clave de los vídeos de YouTube.

Características

  • Analiza vídeos de YouTube utilizando la API de Gemini Vision.
  • Proporciona múltiples herramientas para diferentes interacciones:
    • Descripción general o preguntas y respuestas ( ask_about_youtube_video )
    • Resumen ( summarize_youtube_video )
    • Extracción de momentos clave ( extract_key_moments )
  • Enumera los modelos Gemini disponibles que admiten generateContent .
  • Modelo Gemini configurable a través de variable de entorno.
  • Se comunica a través de stdio (entrada/salida estándar).

Prerrequisitos

Antes de utilizar este servidor, asegúrese de tener lo siguiente:

  • Node.js: Se recomienda la versión 18 o superior. Puede descargarla desde nodejs.org .
  • Clave API de Google Gemini: obtenga su clave API de Google AI Studio o Google Cloud Console.

Instalación y uso

Hay dos formas principales de utilizar este servidor:

Instalación mediante herrería

Para instalar youtube-vision-mcp para Claude Desktop automáticamente a través de Smithery :

npx -y @smithery/cli install @minbang930/youtube-vision-mcp --client claude

Opción 1: Usar npx (recomendado para un uso rápido)

La forma más sencilla de ejecutar este servidor es utilizando npx , que descarga y ejecuta el paquete sin necesidad de una instalación permanente.

Puedes configurarlo dentro del archivo de configuración de tu cliente MCP (Claude, VSCode...):

{ "mcpServers": { "youtube-vision": { "command": "npx", "args": [ "-y", "youtube-vision" ], "env": { "GEMINI_API_KEY": "YOUR_GEMINI_API_KEY", "GEMINI_MODEL_NAME": "gemini-2.0-flash" } } } }

Reemplace "YOUR_GEMINI_API_KEY" con su clave API de Google Gemini real.

Opción 2: Instalación manual (desde la fuente)

Si desea modificar el código o ejecutarlo directamente desde la fuente:

  1. Clonar el repositorio:
    git clone https://github.com/minbang930/Youtube-Vision-MCP.git cd youtube-vision
  2. Instalar dependencias:
    npm install
  3. Construir el proyecto:
    npm run build
  4. Configurar y ejecutar: luego puede ejecutar el código compilado usando node dist/index.js directamente (asegúrese de que GEMINI_API_KEY esté configurado como una variable de entorno) o configurar su cliente MCP para ejecutarlo usando el comando node y la ruta absoluta a dist/index.js , pasando la clave API a través de la configuración env como se muestra en el ejemplo npx.

Configuración

El servidor utiliza las siguientes variables de entorno:

  • GEMINI_API_KEY (Obligatorio): Su clave API de Google Gemini.
  • GEMINI_MODEL_NAME (Opcional): El modelo específico de Gemini que se usará (p. ej., gemini-1.5-flash ). El valor predeterminado es gemini-2.0-flash . Importante: Para uso en producción o comercial, asegúrese de seleccionar una versión del modelo que no esté marcada como "Experimental" o "Vista previa".

Las variables de entorno deben configurarse en la sección env del archivo de configuración de su cliente MCP (por ejemplo, mcp_settings.json ).

Herramientas disponibles

1. ask_about_youtube_video

Responde una pregunta sobre el vídeo o proporciona una descripción general si no se hace ninguna pregunta.

  • Aporte:
    • youtube_url (cadena, obligatoria): la URL del vídeo de YouTube.
    • question (cadena, opcional): La pregunta específica sobre el video. Si se omite, se genera una descripción general.
  • Salida: Texto que contiene la respuesta o descripción.

2. summarize_youtube_video

Genera un resumen de un vídeo de YouTube determinado.

  • Aporte:
    • youtube_url (cadena, obligatoria): la URL del vídeo de YouTube.
    • summary_length (cadena, opcional): Longitud de resumen deseada ('corta', 'media', 'larga'). El valor predeterminado es 'mediana'.
  • Salida: Texto que contiene el resumen del vídeo.

3. extract_key_moments

Extrae momentos clave (marcas de tiempo y descripciones) de un vídeo determinado de YouTube.

  • Aporte:
    • youtube_url (cadena, obligatoria): la URL del vídeo de YouTube.
    • number_of_moments (entero, opcional): Número de momentos clave a extraer. El valor predeterminado es 3.
  • Salida: Texto que describe los momentos clave con marcas de tiempo.

4. list_supported_models

Enumera los modelos Gemini disponibles que admiten el método generateContent (obtenido a través de la API REST).

  • Entrada: Ninguna
  • Salida: Texto que enumera los nombres de modelos admitidos.

Notas importantes

  • Selección de modelos para producción: Al utilizar este servidor con fines comerciales o de producción, asegúrese de que el GEMINI_MODEL_NAME seleccionado sea una versión estable y apta para producción. Según las Condiciones de Servicio de la API de Gemini , los modelos marcados como "Experimental" o "Vista previa" no están permitidos para la implementación en producción.
  • Condiciones del servicio de la API: El uso de este servidor se basa en la API de Google Gemini. Los usuarios son responsables de revisar y cumplir las Condiciones del servicio de las API de Google y las Condiciones adicionales del servicio de la API de Gemini . Tenga en cuenta que las políticas de uso de datos pueden variar entre las versiones gratuita y de pago de la API de Gemini. No comparta información confidencial al usar las versiones gratuitas.
  • Responsabilidad del contenido: No se garantiza la precisión ni la pertinencia del contenido generado mediante la API de Gemini. Sea prudente antes de confiar en el contenido generado o publicarlo.

Licencia

Este proyecto está licenciado bajo la Licencia MIT. Consulte el archivo de LICENCIA para más detalles.

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Servidor MCP (Protocolo de Contexto de Modelo) que utiliza la API de Google Gemini Vision para interactuar con vídeos de YouTube. Permite a los usuarios obtener descripciones, resúmenes, respuestas a preguntas y extraer momentos clave de los vídeos de YouTube.

  1. Características
    1. Prerrequisitos
      1. Instalación y uso
        1. Instalación mediante herrería
        2. Opción 1: Usar npx (recomendado para un uso rápido)
        3. Opción 2: Instalación manual (desde la fuente)
      2. Configuración
        1. Herramientas disponibles
          1. ask_about_youtube_video
          2. summarize_youtube_video
          3. extract_key_moments
          4. list_supported_models
        2. Notas importantes
          1. Licencia

            Related MCP Servers

            • -
              security
              F
              license
              -
              quality
              A Model Context Protocol server that provides Claude with tools to interact with YouTube, built on the mcp-framework.
              Last updated -
              TypeScript
              • Apple
            • -
              security
              -
              license
              -
              quality
              An MCP server implementation that allows using Google's Gemini AI models (specifically Gemini 1.5 Pro) through Claude or other MCP clients via the Model Context Protocol.
              Last updated -
              1
              JavaScript
            • -
              security
              F
              license
              -
              quality
              A server that provides access to Google Gemini AI capabilities including text generation, image analysis, YouTube video analysis, and web search functionality through the MCP protocol.
              Last updated -
              2
              TypeScript
              • Apple
            • A
              security
              A
              license
              A
              quality
              A dedicated server that wraps Google's Gemini AI models in a Model Context Protocol (MCP) interface, allowing other LLMs and MCP-compatible systems to access Gemini's capabilities like content generation, function calling, chat, and file handling through standardized tools.
              Last updated -
              16
              20
              TypeScript
              MIT License
              • Linux
              • Apple

            View all related MCP servers

            MCP directory API

            We provide all the information about MCP servers via our MCP API.

            curl -X GET 'https://glama.ai/api/mcp/v1/servers/minbang930/Youtube-Vision-MCP'

            If you have feedback or need assistance with the MCP directory API, please join our Discord server