Herramientas Minimax MCP

Una implementación de servidor de Protocolo de contexto de modelo (MCP) con integración de API Minimax para generación de imágenes impulsada por IA y funcionalidad de texto a voz.

Características

Generación de imágenes : genere imágenes de alta calidad basadas en indicaciones de texto utilizando el modelo image-01 de Minimax
Texto a voz (TTS) : convierte texto en voz con sonido natural con diversas opciones de voz, emociones y formatos de audio.
Fácil integración : se integra perfectamente con el editor Windsurf como servidor MCP

Related MCP server: Vibe Coder MCP

Configuración

Prerrequisitos

Node.js 16 o superior
Una clave API de Minimax (obtenida en la Plataforma Minimax )
ID de grupo Minimax para la funcionalidad TTS

Configuración

Cree o actualice su archivo de configuración MCP:

Para Windsurf: ~/.codeium/windsurf/mcp_config.json
Para el cursor: ~/.cursor/config/mcp_config.json

Ambos editores utilizan el mismo formato de configuración:

{ "mcpServers": { "minimax-mcp-tools": { "command": "npx", "args": [ "minimax-mcp-tools" ], "env": { "MINIMAX_API_KEY": "your-minimax-api-key", "MINIMAX_GROUP_ID": "your-minimax-group-id" } } } }

Interfaz MCP

Generación de imágenes

Generar imágenes basadas en indicaciones de texto:

// Example parameters for image generation { "prompt": "A mountain landscape at sunset", "aspectRatio": "16:9", "n": 1, "outputFile": "/absolute/path/to/image.jpg", "subjectReference": "/path/to/reference.jpg" // Optional: local file or URL }

Parámetros:

prompt (obligatorio): Descripción de la imagen a generar
outputFile (obligatorio): Ruta absoluta donde guardar el archivo de imagen generado. El directorio debe existir previamente . Al generar varias imágenes (n>1), los archivos se nombrarán con números secuenciales (p. ej., 'imagen-1.jpg', 'imagen-2.jpg').
aspectRatio (opcional): Relación de aspecto de la imagen (predeterminado: "1:1", opciones: "1:1", "16:9", "4:3", "3:2", "2:3", "3:4", "9:16", "21:9")
n (opcional): Número de imágenes a generar (predeterminado: 1, rango: 1-9). Si n > 1, los nombres de los archivos de salida se numeran automáticamente.
subjectReference (opcional): Ruta a un archivo de imagen local o URL pública para referencia de personajes. Si se proporciona, la imagen generada la usará como referencia para la apariencia de los personajes. Formatos compatibles: JPG, JPEG, PNG

Texto a voz

Convierte texto a voz con varias opciones de personalización:

// Example parameters for text-to-speech { "text": "Hello, this is a test of the text-to-speech functionality.", "model": "speech-02-hd", "voiceId": "female-shaonv", "speed": 1.0, "volume": 1.0, "pitch": 0, "emotion": "happy", "format": "mp3", "outputFile": "/absolute/path/to/audio.mp3", "subtitleEnable": true }

Parámetros básicos:

text (obligatorio): Texto a convertir a voz (máximo 10.000 caracteres)
outputFile (obligatorio): ruta absoluta para guardar el archivo de audio generado
model (opcional): Versión del modelo a utilizar (predeterminado: "speech-02-hd", opciones: "speech-02-hd", "speech-02-turbo")
- speech-02-hd : Modelo de alta definición con excelente similitud de timbre, estabilidad de ritmo y calidad de audio de estudio.
- speech-02-turbo : Modelo rápido con excelente rendimiento y baja latencia, capacidades multilingües mejoradas
voiceId (opcional): ID de voz a utilizar (predeterminado: "male-qn-qingse")
speed (opcional): Velocidad del habla (predeterminado: 1.0, rango: 0.5-2.0)
volume (opcional): Volumen de voz (predeterminado: 1.0, rango: 0.1-10.0)
pitch (opcional): tono del habla (predeterminado: 0, rango: -12 a 12)
emotion (opcional): Emoción del discurso (predeterminado: "neutral", opciones: "feliz", "triste", "enojado", "temeroso", "disgustado", "sorprendido", "neutral")
timberWeights (opcional): configuración de mezcla de voces, permite mezclar hasta 4 voces diferentes con pesos
"timberWeights": [ { "voice_id": "male-qn-qingse", "weight": 70 }, { "voice_id": "female-shaonv", "weight": 30 } ]

Configuración de audio:

format (opcional): Formato de audio (predeterminado: "mp3", opciones: "mp3", "pcm", "flac", "wav")
sampleRate (opcional): frecuencia de muestreo en Hz (predeterminado: 32000, opciones: 8000, 16000, 22050, 24000, 32000, 44100)
bitrate (opcional): tasa de bits para el formato MP3 (predeterminado: 128000, opciones: 32000, 64000, 128000, 256000)
channel (opcional): Número de canales de audio (predeterminado: 1, opciones: 1=mono, 2=estéreo)

Funciones avanzadas:

latexRead (opcional): si se deben leer fórmulas LaTeX (predeterminado: falso)
pronunciationDict (opcional): Lista de reemplazos de pronunciación
"pronunciationDict": ["处理/(chu3)(li3)", "危险/dangerous"]
stream (opcional): si se utilizará el modo de transmisión (predeterminado: falso)
languageBoost (opcional): mejora el reconocimiento de idiomas específicos
- Opciones: "Chino", "Chino, Yue", "Inglés", "Árabe", "Ruso", "Español", "Francés", "Portugués", "Alemán", "Turco", "Holandés", "Ucraniano", "Vietnamita", "Indonesio", "Japonés", "Italiano", "Coreano", "Tailandés", "Polaco", "Rumano", "Griego", "Checo", "Finlandés", "Hindi", "Automático"
subtitleEnable (opcional): si se debe habilitar la generación de subtítulos (predeterminado: falso)

Licencia

Instituto Tecnológico de Massachusetts (MIT)

Contribuyendo

¡Agradecemos sus contribuciones! No dude en enviar una solicitud de incorporación de cambios.

Expresiones de gratitud

API de Minimax para proporcionar los modelos de IA
Protocolo de contexto de modelo para la especificación MCP

Install Server

A

security – no known vulnerabilities

A

license - permissive license

A

quality - confirmed to work

How are these scores calculated?

Resources

Need Help?

Report Issue

Reddit Discussion

Related Servers

Minimax MCP Tools

Herramientas Minimax MCP

Características

Configuración

Prerrequisitos

Configuración

Interfaz MCP

Generación de imágenes

Texto a voz

Parámetros básicos:

Configuración de audio:

Funciones avanzadas:

Licencia

Contribuyendo

Expresiones de gratitud

Resources

Tools

Appeared in Searches

Latest Blog Posts

MCP directory API