Minimax MCP Tools

by PsychArch
Verified

remote-capable server

The server can be hosted and run remotely because it primarily relies on remote services or has no dependency on the local environment.

Integrations

  • Supports reading LaTeX formulas in text-to-speech functionality with configurable options for pronunciation.

  • Required as a runtime environment for the MCP server with version 16 or higher needed as a prerequisite.

Herramientas Minimax MCP

Una implementación de servidor de Protocolo de contexto de modelo (MCP) con integración de API Minimax para generación de imágenes impulsada por IA y funcionalidad de texto a voz.

Características

  • Generación de imágenes : genere imágenes de alta calidad basadas en indicaciones de texto utilizando el modelo image-01 de Minimax
  • Texto a voz (TTS) : convierte texto en voz con sonido natural con diversas opciones de voz, emociones y formatos de audio.
  • Fácil integración : se integra perfectamente con el editor Windsurf como servidor MCP

Configuración

Prerrequisitos

  • Node.js 16 o superior
  • Una clave API de Minimax (obtenida en la Plataforma Minimax )
  • ID de grupo Minimax para la funcionalidad TTS

Configuración

Cree o actualice su archivo de configuración MCP:

  • Para Windsurf: ~/.codeium/windsurf/mcp_config.json
  • Para el cursor: ~/.cursor/config/mcp_config.json

Ambos editores utilizan el mismo formato de configuración:

{ "mcpServers": { "minimax-mcp-tools": { "command": "npx", "args": [ "minimax-mcp-tools" ], "env": { "MINIMAX_API_KEY": "your-minimax-api-key", "MINIMAX_GROUP_ID": "your-minimax-group-id" } } } }

Interfaz MCP

Generación de imágenes

Generar imágenes basadas en indicaciones de texto:

// Example parameters for image generation { "prompt": "A mountain landscape at sunset", "aspectRatio": "16:9", "n": 1, "outputFile": "/absolute/path/to/image.jpg", "subjectReference": "/path/to/reference.jpg" // Optional: local file or URL }

Parámetros:

  • prompt (obligatorio): Descripción de la imagen a generar
  • outputFile (obligatorio): Ruta absoluta donde guardar el archivo de imagen generado. El directorio debe existir previamente . Al generar varias imágenes (n>1), los archivos se nombrarán con números secuenciales (p. ej., 'imagen-1.jpg', 'imagen-2.jpg').
  • aspectRatio (opcional): Relación de aspecto de la imagen (predeterminado: "1:1", opciones: "1:1", "16:9", "4:3", "3:2", "2:3", "3:4", "9:16", "21:9")
  • n (opcional): Número de imágenes a generar (predeterminado: 1, rango: 1-9). Si n > 1, los nombres de los archivos de salida se numeran automáticamente.
  • subjectReference (opcional): Ruta a un archivo de imagen local o URL pública para referencia de personajes. Si se proporciona, la imagen generada la usará como referencia para la apariencia de los personajes. Formatos compatibles: JPG, JPEG, PNG

Texto a voz

Convierte texto a voz con varias opciones de personalización:

// Example parameters for text-to-speech { "text": "Hello, this is a test of the text-to-speech functionality.", "model": "speech-02-hd", "voiceId": "female-shaonv", "speed": 1.0, "volume": 1.0, "pitch": 0, "emotion": "happy", "format": "mp3", "outputFile": "/absolute/path/to/audio.mp3", "subtitleEnable": true }

Parámetros básicos:

  • text (obligatorio): Texto a convertir a voz (máximo 10.000 caracteres)
  • outputFile (obligatorio): ruta absoluta para guardar el archivo de audio generado
  • model (opcional): Versión del modelo a utilizar (predeterminado: "speech-02-hd", opciones: "speech-02-hd", "speech-02-turbo")
    • speech-02-hd : Modelo de alta definición con excelente similitud de timbre, estabilidad de ritmo y calidad de audio de estudio.
    • speech-02-turbo : Modelo rápido con excelente rendimiento y baja latencia, capacidades multilingües mejoradas
  • voiceId (opcional): ID de voz a utilizar (predeterminado: "male-qn-qingse")
  • speed (opcional): Velocidad del habla (predeterminado: 1.0, rango: 0.5-2.0)
  • volume (opcional): Volumen de voz (predeterminado: 1.0, rango: 0.1-10.0)
  • pitch (opcional): tono del habla (predeterminado: 0, rango: -12 a 12)
  • emotion (opcional): Emoción del discurso (predeterminado: "neutral", opciones: "feliz", "triste", "enojado", "temeroso", "disgustado", "sorprendido", "neutral")
  • timberWeights (opcional): configuración de mezcla de voces, permite mezclar hasta 4 voces diferentes con pesos
    "timberWeights": [ { "voice_id": "male-qn-qingse", "weight": 70 }, { "voice_id": "female-shaonv", "weight": 30 } ]

Configuración de audio:

  • format (opcional): Formato de audio (predeterminado: "mp3", opciones: "mp3", "pcm", "flac", "wav")
  • sampleRate (opcional): frecuencia de muestreo en Hz (predeterminado: 32000, opciones: 8000, 16000, 22050, 24000, 32000, 44100)
  • bitrate (opcional): tasa de bits para el formato MP3 (predeterminado: 128000, opciones: 32000, 64000, 128000, 256000)
  • channel (opcional): Número de canales de audio (predeterminado: 1, opciones: 1=mono, 2=estéreo)

Funciones avanzadas:

  • latexRead (opcional): si se deben leer fórmulas LaTeX (predeterminado: falso)
  • pronunciationDict (opcional): Lista de reemplazos de pronunciación
    "pronunciationDict": ["处理/(chu3)(li3)", "危险/dangerous"]
  • stream (opcional): si se utilizará el modo de transmisión (predeterminado: falso)
  • languageBoost (opcional): mejora el reconocimiento de idiomas específicos
    • Opciones: "Chino", "Chino, Yue", "Inglés", "Árabe", "Ruso", "Español", "Francés", "Portugués", "Alemán", "Turco", "Holandés", "Ucraniano", "Vietnamita", "Indonesio", "Japonés", "Italiano", "Coreano", "Tailandés", "Polaco", "Rumano", "Griego", "Checo", "Finlandés", "Hindi", "Automático"
  • subtitleEnable (opcional): si se debe habilitar la generación de subtítulos (predeterminado: falso)

Licencia

Instituto Tecnológico de Massachusetts (MIT)

Contribuyendo

¡Agradecemos sus contribuciones! No dude en enviar una solicitud de incorporación de cambios.

Expresiones de gratitud

You must be authenticated.

A
security – no known vulnerabilities
A
license - permissive license
A
quality - confirmed to work

Una implementación de servidor MCP que se integra con la API Minimax para proporcionar generación de imágenes impulsada por IA y funcionalidad de texto a voz en editores como Windsurf y Cursor.

  1. Features
    1. Setup
      1. Prerequisites
      2. Configuration
    2. MCP Interface
      1. Image Generation
      2. Text-to-Speech
    3. License
      1. Contributing
        1. Acknowledgements
          ID: urpa6fr1dl